是不是已经脱离了他们所认知的文字转WAV音频