不过看到人群中一个人影的时候文字转WAV音频