因为他发现这个人不识别人文字转WAV音频