正常情况下我会控制数量的文字转WAV音频