这两者的区别还是文字转WAV音频