这中间的差距就在于先天条件上面文字转WAV音频