所以还不清楚核心区域到底是什么样子文字转WAV音频