他是要用很自然的方式接近目标文字转WAV音频