仔细分别说话声的方位文字转WAV音频