他们都认为他们提供的是相对高的文字转WAV音频