[Paper review] MotionSight: Boosting Fine-Grained MotionUnderstanding in Multimodal LLMs
ICLR 2026ArXivGithubYipeng Du, Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Xiang Li, Jian Yang, Zhenheng Yang, Ying TaiIntroduction 고품질의 video-text 데이터셋과 대규모 모델 파라미터의 이점을 바탕으로, MLLM은 video understanding task에서 인상적인 성능을 보여왔다. Static image와 달리 video는 본질적으로 temporal dimension을 가지며, 이로 인해 다양한 motion이 생성된다. 이러한 변화는 객체의 움직임이나 카메라 동작으로부터 비롯되며, Figure 1(a)와 같이 비디오에 생동감과 서사성을 부여하는 핵심 요소로 작용한다. 그러나 기존의 ..
2026. 4. 9.