所以唯一的办法就是内部消化了文字转WAV音频