这是强化控制的一道工序文字转WAV音频