但这种考察很大程度上都是过场文字转WAV音频