所以他看问题也是更习惯从更高层次去看文字转WAV音频