HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives

🧠 연구 배경 및 문제 정의 영화, 드라마, 광고는 촬영 감독의 의도를 담은 다중 샷 구성으로 서사 흐름을 만든다. 그러나 확산 기반 T2V 모델은 여전히 단일 샷, 짧은 클립에 최적화돼 있어 다음과 같은 한계를 보였다. 이에 저자들은 “텍스트 프롬프트 → 샷 별 서술 → 장면 전체”로 이어지는 계층형 프롬프트 구조를 이해하고, 동일 인물·배경을 유지하면서도 샷 … 더 읽기