我们一直以来太依赖文字转WAV音频