他们也很难弄清楚文字转WAV音频