就好像每一个场景和每一个人物都有生命文字转WAV音频