在发现目标的区域文字转WAV音频