还有第三层指引文字转WAV音频