因为他已经认出了对方文字转WAV音频