也就是说直接由中枢管理文字转WAV音频