他只能依靠自己的知识来理解并做出解释文字转WAV音频