其中每一个区域都被单独隔开文字转WAV音频