而是由亲近程度来衡量的文字转WAV音频