而是用嘴发出虚拟的文字转WAV音频