第二阶段之后的第三阶段文字转WAV音频