那就是因为人类的社会属性存在文字转WAV音频