比如第二段影像的六个身影文字转WAV音频