但那是建立在一个前提之下的文字转WAV音频