顶多是进行引导文字转WAV音频