我们再判断是否更加亲近或者疏远文字转WAV音频