ICLR 2026
ArXiv
Github
Yipeng Du, Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Xiang Li, Jian Yang, Zhenheng Yang, Ying Tai
Introduction

고품질의 video-text 데이터셋과 대규모 모델 파라미터의 이점을 바탕으로, MLLM은 video understanding task에서 인상적인 성능을 보여왔다. Static image와 달리 video는 본질적으로 temporal dimension을 가지며, 이로 인해 다양한 motion이 생성된다. 이러한 변화는 객체의 움직임이나 카메라 동작으로부터 비롯되며, Figure 1(a)와 같이 비디오에 생동감과 서사성을 부여하는 핵심 요소로 작용한다.
그러나 기존의 video understanding task에 비해 fine-grained video motion understanding task의 성능은 여전히 부족한 수준이다. MLLM은 large-scale dataset을 통해 broad한 semantic knowledge를 학습하지만, 정작 미세한 motion을 이해하는 데에서는 suboptimal한 성능을 보인다. 저자들은 이러한 한계의 원인으로 다음 두 가지를 지적한다:
- 모델이 공간적 영역을 동일한 중요도로 처리하려는 경향이 있고,
- 프레임 간의 미묘한 변화(inter-frame variation)를 명시적으로 포착할 수 있는 메커니즘이 부족하다는 점이다.
저자들은 다음과 같은 research question을 제시한다.
- RQ1. MLLM이 이미 가지고 있는 잠재 능력을 어떻게 끌어내서, 더 정교한 motion 이해로 연결할 수 있을까?
- RQ2. 그렇게 얻은 이해를 단순히 모델 내부에 남겨두는 것이 아니라, 실제로 활용 가능한 데이터 형태로 바꿀 수 있을까?
이러한 질문을 바탕으로, 저자들은 추가 학습 없이 zero-shot 방식으로 MLLM의 fine-grained motion understanding 능력을 어떻게 향상시킬 수 있을지를 집중적으로 탐구한다.기존 image understanding 분야에서는 visual prompting 기법이 활발히 연구되어 왔지만, video는 temporal한 변화를 포함하고 있기 때문에 이미지 기반 방법을 단순히 확장하는 것만으로는 fine-grained motion을 충분히 포착하기 어렵다.
이를 검증하기 위해, 저자들은 기존 이미지 기반 prompting 방식을 motion benchmark에 그대로 적용하는 실험을 진행했다. 그 결과, 이미지에서 효과적이었던 방법 중 하나인 background blur가 오히려 fine-grained motion understanding에서는 가장 낮은 성능을 보이는 결과를 확인했다. 이는 해당 방식이 중요한 context 정보를 함께 제거하면서, 미세한 motion을 이해하는 데 필요한 단서를 오히려 약화시켰기 때문으로 해석된다.
이에 따라 저자들은 video understanding domain에 특화된 새로운 video visual prompting 방법인 MotionSight를 제안한다.
핵심 아이디어는 비디오에서 발생하는 motion을 object motion과 camera motion으로 분리하여 각각 다르게 처리하는 것이다.
먼저 object motion의 경우, MLLM의 초기 인식을 바탕으로 action group을 선택하고, object tracking을 활용해 해당 동작과 관련성이 높은 bounding box들을 추출한다. 이후 이 박스 시퀀스를 부드럽게 보정한 뒤, 특정 영역을 강조하는 spotlight 형태의 visual prompt를 적용한다. 이렇게 가공된 정보를 다시 MLLM에 입력함으로써, 모델이 객체의 미세한 움직임을 보다 정확하게 인식하도록 유도한다.
반면 camera motion은 장면 전반의 미세한 변화로 나타나기 때문에 MLLM이 특히 어려움을 겪는 영역이다. 이를 해결하기 위해 저자들은 video frame에 인위적으로 motion blur를 추가하는 방법을 제안한다. 이러한 blur는 오히려 camera motion을 더 잘 드러내는 역할을 하며, 실험적으로도 성능 향상에 기여하는 것으로 나타났다.최종적으로, 이렇게 처리된 정보를 템플릿 형태로 구성한 뒤 MLLM의 inference를 통해 결과를 도출한다.
또한 저자들은 MLLM의 fine-grained motion understanding 능력을 평가하기 위해 MotionVid-QA 데이터셋을 구축하였다.
해당 데이터셋은 약 40K개의 video clip과 87K개의 QA pair로 구성되어 있으며, 학습 전략을 위한 SFT dataset과 preference dataset을 함께 포함하고 있다.
MotionSight

저자들은 fine-grained motion perception을 향상시키기 위해, object motion과 camera motion을 분리하여 처리하는 MotionSight를 제안한다. 먼저 입력 비디오를 샘플링한 뒤, 각 motion을 다음과 같이 분리하여 이해한다.
$$\mathcal{R}_{obj}=\mathrm{MLLM}(\Phi_{obj}(V_s)))\quad \mathcal{R}_{cam}=\mathrm{MLLM}(\Phi_{cam}(V_s,V)) $$
여기서 $\mathcal{R}_{obj}$와 $\mathcal{R}_{cam}$은 각각 object motion understanding과 camera motion understanding을 의미하며 $\Phi_{obj}$와 $\Phi_{cam}$은 각 motion에 대응되는 visual prompting function이다. 즉, 동일한 비디오라도 서로 다른 prompting 전략을 적용하여 object와 camera motion을 분리해 이해하는 구조라고 볼 수 있다.
Object Referring.
초기에 MLLM은 sampling된 프레임과 query를 입력으로 받아 의미적으로 관련된 객체 카테고리 집합을 추론한다. 이 정보는 이후 visual perception module에서 object localization과 trajectory estimation을 수행하는 데 중요한 가이드로 활용된다.
$$\mathcal{O}=\mathcal{M}_{track}\big(\mathcal{M}_{detect}(I_{s_t},\mathcal{C};\theta_{det}),\{I_{s_j}\}_{j=t+1}^{T};\theta_{track}\big)$$
- $\mathcal{M}_{detect}$은 키프레임 $I_{s_t}$에서 카테고리 $\mathcal{C}$에 해당하는 바운딩 박스를 탐지하는 역할을 한다.
- $\mathcal{M}_{track}$은 이러한 탐지 결과를 이후 프레임들에 걸쳐 propagate하여 object trajectories $\mathcal{O}$를 생성한다.
흥미로운 점은 직접적으로 행동을 추론하는 방식의 경우 hallucination을 유발할 수 있지만, 객체를 먼저 식별하는 접근은 초기 오류가 존재하더라도 낮은 신뢰도의 탐지 결과를 활용해 점진적으로 refinement가 가능하다.
Action Focusing.
추적된 객체 궤적을 그대로 사용하는 대신, 저자들은 시간적으로 안정적인 객체 영역을 생성하는 과정을 추가로 수행한다. 일반적으로 object tracking 결과는 프레임마다 bounding box가 흔들리는 문제가 있기 때문에, 이를 그대로 활용하면 모델이 중요한 영역에 집중하기 어렵다. 이를 해결하기 위해, 저자들은 dynamic temporal aggregator를 도입한다.
이는 여러 프레임에 걸쳐 bounding box를 통합하여 더 안정적인 refined spatial region을 생성하는 역할을 한다. 이 과정에서 중요한 기준은 객체의 움직임 정도로 측정한다. (위치 변화의 경우 박스 중심 간 Manhattan distance를 사용한다)
- 객체의 위치 변화가 작은 경우 → 더 긴 시간 구간의 정보를 활용하여 안정적인 영역을 생성
- 객체의 위치 변화가 큰 경우 → 짧은 구간에 집중하여 보다 정밀한 영역을 유지
이러한 방식으로 생성된 bounding box는 불필요한 흔들림을 줄이면서도, 객체의 실제 움직임을 잘 반영하게 된다. 이후, 이렇게 refined된 영역을 기반으로 object motion enhancement function이 적용된다. 구체적으로, spotlight 형태의 visual prompting을 사용하여 객체 영역은 그대로 유지하고, 그 외 배경은 어둡게 처리한다. 이를 통해 모델은 불필요한 배경 정보의 영향을 줄이고, 핵심적인 객체의 움직임에 집중할 수 있게 된다.
Motion Blur.
기존 MLLM은 프레임 간의 미묘한 변화, 특히 카메라 움직임을 잘 인식하지 못하는 한계가 있다. 이를 해결하기 위해 저자들은 여러 프레임을 겹쳐 motion blur를 유도하는 방식을 제안한다.
구체적으로, 각 프레임은 과거 프레임들을 weighted sum하여 하나의 이미지로 결합된다. 이 과정에서 자연스럽게 motion blur 효과가 형성되며, 단일 프레임에서는 드러나지 않던 움직임의 궤적이 강조된다. 그 결과, 모델은 장면 전반의 미세한 변화에 더욱 민감해지고, 카메라 움직임을 보다 명확하게 인식할 수 있게 된다.
MotionVID

본 연구에서는 fine-grained motion understanding을 위해 두 가지 핵심 데이터 자원을 구축한다. 이는 SFT와 DPO 기반의 2-stage 학습을 지원하기 위한 instruction 데이터와 preference 데이터로 구성된다.
Dataset collection and processing.
MotionVid-QA는 다양한 motion 이해 상황을 포괄하기 위해 여러 비디오 데이터셋으로부터 수집되었다. ActivityNet, Kinetics-700, Charades, OpenVid 등 다양한 소스를 활용하여 데이터의 다양성을 확보하였으며, 이를 통해 여러 종류의 motion과 실제 시나리오를 포함하도록 구성하였다. 또한 데이터 품질을 보장하기 위해, 논문에서 제시된 전처리 및 필터링 과정을 적용하여 최종 데이터셋을 구축하였다.
SFT and DPO.
SFT 단계에서는 모델이 비디오 내의 시공간적 정보와 motion 패턴을 효과적으로 이해할 수 있도록 학습한다. 이를 통해 특정 video understanding task에서의 성능을 향상시키는 것을 목표로 한다.
이후 DPO 단계에서는 인간의 선호를 반영하여 모델을 정렬한다. 기존 RLHF와 달리, 별도의 reward model을 학습하는 대신 (pair-wise preference data을 활용하여 모델을 최적화한다. 즉, 더 나은 응답과 그렇지 않은 응답을 비교하는 방식으로, 모델이 인간의 판단 기준에 맞는 출력을 생성하도록 유도한다.
MotionVid-QA: a large-scale dataset for fine-grained motion understanding.
최종적으로 약 40K개의 비디오 클립을 선별하고 MotionSight를 활용해 annotation을 생성하였다. 이후 VQAScore와 인간 기준을 기반으로 데이터 품질을 평가하여, 고품질 데이터는 preference dataset으로, 나머지는 SFT용 instruction dataset으로 활용하고, 저품질 데이터는 제거하였다.
SFT 단계에서는 MotionSight 기반 annotation을 텍스트 데이터로 활용하여 motion 이해 능력을 학습시키며, preference 데이터셋의 경우 DPO 학습을 통해 fine-grained motion 이해를 인간의 선호에 맞게 정렬한다. 또한 preference 데이터는 추가적인 재주석 과정을 거쳐 품질을 더욱 향상시켰다.
이렇게 구축된 MotionVid-QA는 다양한 장면과 고품질 비디오를 포함하는 fine-grained motion understanding을 위한 최초의 대규모 오픈소스 데이터셋이다. 또한 엄격한 필터링을 통해 데이터 품질과 정합성을 확보하였으며, SFT와 preference 데이터로 구성된 계층적 구조를 통해 보다 정교한 motion 이해 학습을 가능하게 한다.
Experiments
저자들은 제안한 MotionSight의 효과를 검증하기 위해 MotionBench와 FAVOR-Bench에서 실험을 진행하였다. 이 두 벤치마크는 다양한 비디오 유형을 포함하고 있으며, 모델이 fine-grained motion을 얼마나 잘 이해하는지를 평가하기 위해 설계된 데이터셋이다.
Quantitative evaluation.

(큰 성능 향상은 없는 듯 하다.)
Qualitative evaluation.


MotionSight의 visual spotlight는 모델이 중요한 motion information에 집중하도록 유도하며, motion blur 기법은 비디오 내의 카메라 움직임 변화를 보다 효과적으로 인식할 수 있게 한다.