一开始还会计算一下规矩文字转WAV音频