他们相互依靠着文字转WAV音频