他们必须去适应文字转WAV音频