他理想中的方式是文字转WAV音频