后者或许才是他更愿意看到的结果文字转WAV音频