就已经判断出对方大约来了多少人文字转WAV音频