而是用眼角余光观察文字转WAV音频