它对应的只是自己眼睛对正常光线的感知文字转WAV音频