实际上就是顾及他的感受文字转WAV音频