所以他只能凭着经验判断司机所在的位置文字转WAV音频