仅仅是捕捉到第六式的门槛文字转WAV音频