是因为我的训练太重文字转WAV音频