很多基于常规的理论就不太适用了……文字转WAV音频