因为我们想在他下次通话的时候进行抓捕文字转WAV音频