我们一直在观测着全局文字转WAV音频