而是在辨认了一下方向和看了看周围的环境之后文字转WAV音频