其实更像是抽动文字转WAV音频