所以才说是额外指导文字转WAV音频