而不需要考虑中间这些过程文字转WAV音频