他们大多能判断个七八不离十文字转WAV音频