不过本质上的区别还是存在的文字转WAV音频