并利用两旁建筑和路上人群隐蔽跟着文字转WAV音频