似要在纷攘的人群中找出目标文字转WAV音频