这本身就已经是我们输了文字转WAV音频