因为对方已经通过我的行为判断出我接下来要做什么文字转WAV音频