他的选择大部分时间都是出于理想的文字转WAV音频