正常的表达一个角色在当时的情境下文字转WAV音频