他们收集气息和影像文字转WAV音频