对于环境的理解则是模仿不来的文字转WAV音频