是两张缩小版的人脸文字转WAV音频