那么感知就是整体的适时的成像文字转WAV音频