只不过他们一直认为文字转WAV音频