我们应该先研究一下他们会在什么地方集合文字转WAV音频