AAAI 2026
ArXiv
Github
Xuyang Liu, Ziming Wang, Junjie Chen, Yuhang Han, Yingyao Wang, Jiale Yuan, Jun Song, Linfeng Zhang, Siteng Huang, Honggang Chen
Introduction

LVLMs(Large vision-language models)은 large language models(LLMs)과 visual encoders를 결합한 모델로서 최근 눈에 띄는 발전을 이루었다. 특히 high-resolution 이미지 이해를 위해 위의 LLaVA-Next의 Anyres와 같은 아키텍처를 제안하였다. 이는 fine-grained details을 포착하면서도 효율적인 visual encoding을 가능하게 하지만 동시에, 시각적 토큰이 증가하여 비용 문제를 발생야기한다.
이러한 문제를 해결하고자, 다수의 연구에서는 token compression apporach를 제안하였다. 하지만 이들은 주로 위와 같은 multi-view에서가 아닌 single-view에서만 탐구되었다. 사실 single-view의 경우 multi-view보다 토큰수가 적을뿐더러, 그간 기법을 multi-view에 그대로 적용할 경우 다음과 같은 3가지 핵심 문제를 발생시킨다:

① Global context neglect: 그간 방법들은 Global-context의 역할을 무시한다. (Global-context 영향을 모른다고 주장하고 싶었던 것 같음)
② information richness disparity: 분명 중요한 crop이 존재할텐데 이를 고려하지 않음.
③ Context-agnostic positional bias: 그간 방법 중 LLM attention layer를 사용하는 접근법들이 다수 존재하는데, 실제 정보와는 다르게 뒤쪽에 위치한 crop들에게서 attention score가 높아지는 경향이 존재함(위 그림).
이에 따라 본 저자들은 먼저 dynamic cropping에 대해 systematic 분석을 수행한 뒤 두 가지 key observations을 도출하였다:
① Thumbnail과 crop token은 서로 상호보완적 역할을 수행함: Thumbnail은 holistic context를 포착; cropping을 fine-grained details을 제공 → ∴ Thumbnail을 통해 crop image의 중요도 평가가 가능함
② 각 cropping image들 간 차별화된 압축 전략이 필요함: 그렇지 않으면 정보 손실이 발생함.

위의 observation을 기반으로 본 저자들은 GlobalCom$^ \textbf{2}$(Global Compression Commander)를 제안한다. 위 그림과 같이 thumnail로부터 얻은 holistic 정보를 활용하여 각 crop의 information richness를 평가하고, 이를 기반으로 adaptive하게 compression 강도를 조절한다.
이 method는 global과 local 관점 모두에서 token compression을 수행하며, 영역별로 차별화된 압축을 달성하면서도 중요한 정보를 보존할 수 있다. 심지어 training-free 접근이며, 이는 자연스럽게 videoLLMs과도 통합될 수 있다.
Analysis of Dynamic Cropping
본 분석 설명에 앞서 저자들은 LLaVA-NeXT를 통해 분석을 수행하였다(맨 위 그림 참조).
Functions of Thumbnail and Crops

저자들은 global과 crop image이 이미지 이해에 어떻게 기여하는지 실험적 분석을 수행하였다.
Thumbnail만 사용했을 때: SQA같은 일반 시각적 인식 task에서 더 높은 성능을 보였음.
Cropping image만 사용했을 때:TextVQA나 POPE처럼 fine-grained detail이 필요한 과제에서 강한 성능을 보였음.
🔎 Observation 1: dynamic cropping기반 HR-LVLM에서 Global thumbnail과 local crop은 서로 상호보완적인 역할을 수행한다.
⇒ Thumbnail은 holistic representation을 제공함
⇒ crop image는 detail을 포착함
Information Richness in Different Crops

저자들은 crop의 중요도를 알아보기 위해 drop-crop 실험을 수행하였다. 구체적으로 thumbnail patch와 각 crop image의 $\texttt{[CLS]}$를 이용해 각 크롭의 중요도를 측정한 뒤, 이를 제거하여 성능 변화를 관찰하였다. 그 결과, high-resolution benchmark에서 유의미한 성능차이가 발생하였다.
🔎 Observation 2: local crops은 global context 내에서 서로 다른 information richness를 나타냄 ⇒ dynamic cropping에서 전체 visual understanding 기여도가 서로 다름
Methodology

본 저자들은 인간이 장면의 전체적 요지를 파악한 뒤 세부 정보에 집중한다는 과정에서 영감을 받아 GlobalCom²를 제안한다. 이는 architecture specific하며 global-to-local의 compression 전략이다.
Global Thumnail Compression.
global token을 compression하기 위해, 저자들은 $\texttt{[CLS]}$ token이 global image representation을 함향하고 있는 것을 활용한다. 구체적으로 token seqence 길이가 $N$이라고 할 때 각 토큰의 중요도 점수 $s_i^G$를 다음과 같이 정의한다:
$$ \mathbf{s}_i^{G} = \frac{\exp \left( \mathbf{q}^{\text{[CLS]}} \mathbf{K}_i^{\top} / \sqrt{D} \right)}{\sum_{i=1}^{N} \exp \left( \mathbf{q}^{\text{[CLS]}} \mathbf{K}_i^{\top} / \sqrt{D} \right)} $$
이때 $q^{\texttt{[CLS]}}$와 $K$는 각각 query와 key를 의미한다. 이후 사전 정의된 retention ratio $R$(%)이 주어졌을 때, top-k ($ k= R \times N$)을 보존한다.
Local crop Compression.
Thumnail compression과 다르게 crop compression은 각각의 정보량이 다르기 때문에 더 복잡한 문제에 직면한다. 🔎 Observation 2에 따라 의미적으로 rich한 크롭은 더 많이 보존해야 하며, 그렇지 않은 crop은 더 강한 압축을 수행할 수 있다. 저자들은 이를 실현시키고자 Thumbnail을 활용하여 two-stage로 진행한다:
⑴ Adaptive Compression Adjustment: 각 크롭의 information richness에 따라 dynamic 하게 압축 강도를 결정함.
⑵ Holistic Token Evaluation: local과 global 관점에서 토큰의 정보성을 평가함.
Adaptive Compression Adjustment. 이 메커니즘의 최종 목표는 adaptive 하게 각 크롭의 토큰 압축 비율을 결정하는 것이다. 먼저 저자들은 crop의 정보량을 측정하고자 patch-to-$\texttt{[CLS]}$를 활용하여 각 크롭의 richness score $s^G_j=\sum_{i \in crop_j}s^G_i$ 를 계산한다. 이후 점수를 normalize $ \tilde{s}_j = (s_j^{G} - \max(s_j^{G})) / \tau ; (\tau = 10) $ 하고 난 뒤 softmax를 활용하여 상대적 중요도 가중치 $\sigma_j$를 계산한다.
$$ \sigma_j = \frac{\exp(\tilde{s}_j)}{\sum_{l=1}^{n} \exp(\tilde{s}_l) + \epsilon} $$
$ \epsilon $은 0으로 나누는 것을 방지하기 위함.
최종적으로 각 크롭에 대한 최종 토큰 유지 비율 $r_j$는 다음과 같이 계산된다.
$$ r_j = R \times \left( 1 + \sigma_j - \frac{1}{n} \right) $$
여기서 $R$(%)은 사전 정의된 retention ratio를 의미하며, 수식은 직관적으로 크롭 $j$가 평균적인 중요도 $\frac{1}{n}$에서 얼마나 벗어났는지를 측정하며 기본적인 유지 비율 $R$을 동적으로 조정한다.
1) 모든 로컬 크롭이 동일할 경우: 각 크롭의 중요도는 $\frac{1}{n}$ 이 됨.
2) $\sigma_j > \frac{1}{n}$ (중요한 crop): 평균보다 정보가 풍부하다는 의미로, 괄호 안의 값이 1보다 커지게 되며 최종 유지 비율 $r_j $이 $R$보다 높게 설정됨. ⇒ 덜 압축함으로써 정보를 더 많이 유지함.
3) $\sigma_j < \frac{1}{n}$ (덜 중요한 crop): 평균보다 정보가 덜 풍부하다는 의미로, 괄호 안의 값이 1보다 작아지게 되며 최종 유지 비율 $r_j $이 $R$보다 작게 설정됨. ⇒ 기존보다 더 압축함.
이를 통해 compression degrees를 할당하게 된다.
Holistic Token Evaluation. 전 섹션에서 crop 별 압축 강도를 결정했다면, 이번 섹션에서는 각 crop 별로 어떤 token을 보존할지 토큰의 중요도를 평가하게 된다. 먼저 각 크롭에 대해 patch 토큰과 $\texttt{[CLS]}$ 사이의 attention을 이용해 최종 layer의 attention에서 로컬 중요도 점수 $\{s^L_j\}^n_{j=1}$을 계산한다. 하지만 이의 경우 크롭 내부의 중요도만 반영할 뿐, 크롭 간의 요소는 반영하지 못한다. 🔎 Observation 1에 따라 global thumbnail의 context를 추가 반영하기 위해, 1D 형태의 attention score $s^G$를 2D로 reshape한 뒤 bilinear interpolation 을 수행하여 각 crop에 대한 submap $\{\hat{s}_j^G\}^n_{j=1}$을 얻는다. $j$번째 크롭에서 $i$번째 토큰의 holistic score $s_{j,i}$는 다음과 같다:
$$ s_{j,i} = \alpha \hat{s}_{j,i}^{G} + (1 - \alpha) s_{j,i}^{L} $$
이때 저자들은 $ \alpha=0.5 $로 설정하였으며, 상세한 분석은 뒤에서 제공한다.
최종적으로 압축은 다음과 같이 수행된다:
$$ \mathbf{X}_j^{L} \rightarrow \hat{\mathbf{X}}_j^{L} = \text{TopK}(\mathbf{X}_j^{L}, s_j, r_j \times N) $$
Extension to Video Understanding.
VideoLLM의 경우 순차적인 프레임 처리 시 redundancy가 상당히 많은데, 저자들은 dynamice cropping과 유사하다는 점에 주목하여 본 접근법은 VideoLLM으로 확장하였다.
비디오 토큰 $\textbf{V}=\{ \mathbf{V}_j \}^T_{j=1}$이 주어졌을 때, 먼저 global average pooling을 통해 global representation $ \mathbf{v}^g$를 얻는다. 이후 $\mathbf{v}^g$는 $j$ 프레임의 $i$ 토큰과의 cosine similarity를 계산하여 다음과 같은 global score를 정의한다:
$$ s_{j,i}^{G} = -\text{sim}(\mathbf{v}_{j,i}, \mathbf{v}^{g}) = -\frac{\mathbf{v}_{j,i} \cdot \mathbf{v}^{g}}{\left\|\mathbf{v}_{j,i}\right\| \left\|\mathbf{v}^{g} \right\| } $$
이때 $ s_{j,i}^{G}$는 음의 코사인 유사도로, 유사도가 낮을수록 더 높은 독창성을 나타낸다.
이후 각 프레임에 대해 정보 풍부도를 계산한 뒤, 위의 과정과 유사하게 압축이 이뤄지게 된다:
$$ \mathbf{V}_j \rightarrow \hat{\mathbf{V}}_j = \text{TopK}(\mathbf{V}_j, s_j, r_j \times N). $$
Experiments
Main Results.

GlobalCom$^2$는 LLaVA-NeXT 기반 실험을 통해 ⑴우수한 성능, ⑵극단적 압축 상황에서도 robustness 함.⑶High-resolution(VQAT, MME, MM-Vet)에서 우수한 성능. 위 세 가지를 보였다.

또한 추가적인 LLaVA-OneVision 모델의 기반 검증을 통해 $R=10\%$ 에서 원래 성능의 90.5%를 유지하면서도 GPU 메모리는 원래의 35.4% 만 사용함을 보여주었다.
Video Understanding.

GlobalCom$^2$는 또한 video 환경 실험에서도 우수한 성능을 보이며 방법론의 우수성을 입증하였다.
Ablation on Adaptive Compression Adjustment.

Uniform: 모든 crop에 균일하게 25% 적용. (조정 없음)
$\textbf{n_{top-k}}$: 각 크롭에서 가장 정보량이 많은 top-K만을 보고 압축 조정.
Softmax (max): 크롭 내부의 가장 중요한 토큰 하나만 보고 결정.
Softmax (sum): 크롭 전체의 중요도를 보고 결정.(논문의 방식)
이를 통해 $\textbf{n_{top-k}}$와 Softmax (max)는 global 중요도를 고려하지 않기에 crop 내 강한 visual feature에 집중하는 반면, Softmax (sum)은 전반적인 중요도를 고려하기에 더 많은 semantic 정보를 고려할 수 있다.
Ablation on Holistic Token Evaluation.

$$ s_{j,i} = \alpha \hat{s}_{j,i}^{G} + (1 - \alpha) s_{j,i}^{L} $$
Local only: $ \alpha=0$ (crop 내부 점수 만을 고려함)
Global only: $ \alpha=1$ (crop 내부를 고려하지 않음)
위 실험 결과를 통해 globla-local을 고려하는 것이 optimal 한 선택임을 보여준다.
Combination with Question-aware Methods.

기존 텍스트 질문의 관련성을 기반으로 토큰의 중요도를 평가하는 기존의 압축 방식(FastV, SparseVLM)들과 해당 방식을 추가한 방식에 대해 극한의 압축 조건에서 비교 실험을 진행하였다. 실험 결과 일관되게 성능 향상을 보였다.
Efficiency Analysis.

SparseVLM은 LLM의 attention score를 요구하기에 FlashAttention과 구조적으로 호환되지 않는 한계가 존재한다. 반면 FasterVLM과 GlobalCom$^2$은 효율적인 추론이 가능하다.