当然最初只是帮助他们进行训练文字转WAV音频