这一个环节是没有事先进行排练的文字转WAV音频