并拿到图片的各类具体信息后文字转WAV音频