其实都是在算计文字转WAV音频