它们都要像存在于现实世界中一般文字转WAV音频