很显然是在用眼神交流文字转WAV音频