大致是在猜测这些人的身份文字转WAV音频