肯定会先观察环境的文字转WAV音频