难道他从一开始就计算好文字转WAV音频