很多的因素他都要去顾及文字转WAV音频