所以他没有办法从声音辨别出来人在什么地方文字转WAV音频