所以我们就有了达成一致的必要前提文字转WAV音频