无法明确的跟人类表达自己的意向文字转WAV音频