其核心应该是在他的身体内部文字转WAV音频