所以按照他们的计划来训练文字转WAV音频