只不过他们一直找了接近五百个位置文字转WAV音频