当然在总量上个体差距比较大文字转WAV音频