每个空间都是独立的空间文字转WAV音频