从周围那七八个观众的表情就能感觉得到文字转WAV音频