所以他需要有更多属于自己的理解文字转WAV音频