大部分仅是混淆视线文字转WAV音频