在上面进行深入加工之后形成的模型图像文字转WAV音频