也就是安置在聚集地中央地带的文字转WAV音频