而不是像他们在国内的训练那般文字转WAV音频