我的猜测是……肯定是有办法可以避开这种抽取的文字转WAV音频