似乎是从核心位置出来的文字转WAV音频