最终换了一个缓和一点的训练方式文字转WAV音频