但所有的目标都是一个文字转WAV音频