不过我们也只是简单的眼神交流文字转WAV音频