所以在他的视角来看文字转WAV音频