随之而来的问题是人物被割裂在块状的场景中文字转WAV音频