Arxiv
Github
Dingchen Yang, Bowen Cao, Anran Zhang, Weibo Gu, Winston Hu, Guang Chen
Introduction
Multi-modal Large Language Models(MLLMs)은 다양한 vision-language task에서 우수한 성능을 보이고 있다. 이는 고해상도 이미지 및 비디오를 처리하기 위해 수천 개의 시각 토큰을 통합하는 접근 방식이다. 그러나 이러한 방식은 여러 가지 한계를 갖는다. 첫째, 시각 토큰이 텍스트 토큰에 필요한 콘텍스트 윈도를 잠식하여 MLLMs의 텍스트 처리 능력을 저해할 수 있다. 둘째, self-attention 메커니즘의 quadratic complexity는 계산 비용을 크게 증가시킨다. 따라서 redundant 한 시각 토큰을 줄이는 것은 MLLMs의 전반적인 성능과 효율성을 향상하는 데 필수적이다.
시각 토큰을 줄이기 위해 최근 연구들의 경우 intermediate state를 활용하는 방안을 주로 두 가지로 방향성으로 탐구해 왔다. 먼저 ViT 모델의 $[CLS]$ 토큰을 활용하는 방식이 존재한다. 또한 텍스트 토큰과 시각 토큰 간 attention score를 활용하는 방안으로, 이는 두 모달 간 정보 흐름을 포착할 수 있다.
그러나 저자들은 intermediate states를 활용하는 기존 기법들이 개별 시각 토큰이 최종 결과에 얼마나 기여했는지를 정확히 파악하기 어렵다고 지적한다. 이는 두 가지 이유 때문이다. 첫째, 단순히 시각 토큰과 텍스트 토큰 간의 scalar attention score(즉 Q-K)만 중요한 것이 아니라, value vector 또한 어텐션 메커니즘에서 핵심적 역할을 하므로 실제 기여도를 설명하기에는 불충분하다. 둘째, MLLMs의 auto-regressive 구조로 인해 토큰 표현이 단계마다 점진적으로 변형되므로, 최종 출력에 미치는 영향을 추적하기 어렵다. 이러한 특성으로 인해 visual redundancy을 명확히 구별할 수 없으며, 그 결과 실제로 유용한 시각 토큰이 pruned될 위험이 존재한다.

본 연구에서는 MLLMs에서의 visual redundancy를 면밀하게 규명하고자 하였다. 이를 위해 인간이 이미지를 이해할 때 개별 시각 단서에 주목하고 그것이 전체 이미지 표현에 기여하는 정도를 평가하는 과정에 착안하여 두 가지 관점에서 분석을 수행하였다.
1) Token-Centric perspective. 각 시각 토큰이 내재적으로 인코딩하는 시각 정보를 살펴보는 방식 (시각 토큰 간 비교)
2) Context-Centric prespectie. 각 시각 토큰이 전체 이미지에 어떤 영향을 미치는지 살펴보는 방식
먼저 Token-Centric 분석을 위해, 저자들은 single-token-input 실험을 설계하였다. 이는 개별 시각 토큰 하나만을 입력으로 주어, 해당 토큰이 담고 있는 정보를 모델이 해석할 수 있는지를 확인하는 방식이다. 이를 통해 ViT의 $[CLS]$과 낮은 유사도 및 text-to-image의 attention score가 낮더라도 유효한 시각 정보를 인식할 수 있음을 확인하였다. 실제 위 그림과 같이 #114와 #425 patch 만을 가지고 각각 당근와 숟가락을 80% 이상의 확률로 예측하였다.
Context-centric 분석에서는 leave-one-token-out 실험을 통해 이미지 전체 토큰을 입력한 뒤 특정 토큰을 제거했을 때 예측 확률 분포가 어떻게 변하는지를 관찰하였다. 그 결과 ViT의 $[CLS]$과 낮은 유사도 및 text-to-image의 attention score가 낮더라도, 특정 시각 토큰이 여전히 MLLMs 내에서 중요하게 작용하는 것으로 나타났다. 이 두 실험을 통해, 기존에 중요하지 않다고 여겨졌던 토큰들도 실제로는 핵심적인 역할을 수행할 수 있음을 확인하였으며, 이에 따라 저자들은 visual redundancy의 정의를 재고할 필요가 있음을 주장한다.
이러한 분석을 기반으로 본 연구는 redundant visual tokens을 식별하기 위한 두 가지 근본적인 기준을 제안한다.
1) 인식 가능한 시각 정보가 없는 경우
2) 이미지 전체 정보에서 영향이 없는 경우
위 기준을 충족하는 시각 토큰의 특성을 추가적으로 분석한 결과, 저자들은 context-independent condition을 도입하였다. 이는 특정 이미지 상황에 종속되지 않고, 서로 다른 이미지에서도 일관되게 불필요할 가능성이 높은 토큰 패턴을 prototype으로 묶어 일반화 가능성을 확보하는 방식이다.
또한 이러한 기준을 활용하여 저자들은 identify-then-probe 전략을 제안한다. 이는 추론 시 visual token pruning을 위한 방법으로, 먼저 training images를 이용해 중복 프로토타입을 식별하고 이를 확장 가능한 redundancy codebook에 저장한다. 이후 추론 과정에서 입력된 시각 토큰이 코드북 내 프로토타입과 높은 유사도를 보일 경우, 해당 토큰은 중복일 가능성이 크다고 판단하여 LLM에 전달하기 전에 제거한다.
Visual Redundancy Analysis
Background and Analysis Method
기존 연구들은 visual redundancy를 추정하기 위해 Query와 Key 행렬에서 도출된 sclar attention score를 활용해왔다. 이러한 접근은 낮은 어텐션 점수가 특정 쿼리와 키 feature 간의 상관관계가 약하다는 것을 의미한다고 가정한다. 그러나 저자들은 이러한 어텐션 점수만으로는 시각 토큰이 MLLM의 최종 확률 예측에 기여하는 정도를 충분히 설명할 수 없다고 지적한다. 이는 다수의 attention layers and heads, attention value vector의 영향, 그리고 auto-regressive LLM에서 한 토큰의 표현이 점진적으로 다음 토큰의 표현으로 변환되는 과정을 모두 무시하기 때문이다.
이로 인해 저자들은, input-output 분석 접근법으로 전환한다. 구체적으로, 입력 시각 토큰을 조작했을 때 모델 출력이 어떻게 변하는지를 관찰함으로써 분석을 수행한다. 또한 MLLM의 시각 토큰 이해 과정을 면밀히 분석하기 위해, 인간이 visual media를 이해하는 것에 영감을 받아 접근법을 제안한다. 이는 인간은 일반적으로 개별 시각 요소를 관찰하고 그것이 전체 이미지의 semantic context에 미치는 영향을 평가함으로써 이미지를 종합적으로 이해한다.

Token-Centric Problem.
저자들은 먼저 개별 시각 토큰이 어떤 정보를 포함하는지 탐구하기 위해, Single visual token input 실험을 수행하였다. 위 그림과 같이 단일 시각 토큰만 LLM에 제공하여, 다른 시각 토큰들의 간섭을 제거함으로써 하나만의 토큰 영향을 살펴본다.
개별 시각 토큰이 인식 가능한 정보를 담고 있는지를 평가하기 위해, 저자들은 top-1 probability을 활용하였다. 이 값이 높을수록, LLM이 해당 텍스트 토큰 후보와 입력 시각 토큰 간의 강한 연관성을 자신 있게 판단하고 있음을 시사한다. 반대로 0에 가까울 경우, 해당 시각 토큰은 유의미한 시각 정보를 포함하지 않는다고 추론한다.
Context-Centric Problem.
앞서 언급한 바와 같이, 본 연구는 visual context 관점에서 개별 시각 토큰이 어떤 영향을 미치는지를 추가적으로 탐구하였다. 이를 위해 leave-one-token-out(LOTO) 실험을 수행하여, 전체 입력 대비 특정 시각 토큰을 제거했을 때의 predicted probability distribution 차이를 평가하였다. 그러나 초기 실험 결과, 단일 토큰 제거에 따른 변화가 수치적으로 미미하여 그 영향을 확인하기 어려웠다.
이 문제를 해결하기 위해 저자들은 위 그림과 같은 cascaded leave-one-out 실험을 고안하였다. 구체적으로 특정 시각 토큰의 $ 3 \times 3$ spatial neighborhood 내에서 region 수준에서 LOTD 실험을 수행하였다. 이후 global 수준에서 실험을 추가적으로 진행한다.
이 두 실험 결과를 cascading 결합함으로써, 개별 시각 토큰이 이미지 전체 정보에 미치는 영향을 측정할 수 있다. 또한 두 확률 분포 간 차이를 정량적으로 평가하기 위해 Jensen-Shannon Divergence을 활용하였으며, 최종 결과는 두 실험에서 계산된 JSD 값을 가중합 하여 산출한다.
Discoveries
저자들은 top-1 probability 및 JSD 결과를, 흔히 사용되는 intermediate state 지표들과 비교하였다. 구체적으로는 ① ViT의 끝에서 두 번째 층에서$[CLS]$ 토큰과의 코사인 유사도, ② 텍스트 토큰이 시각 토큰에 주는 어텐션 점수와 비교하였다. 주요 발견은 다음과 같다.

Finding 1. ViT−[CLS] 유사도와 text-to-image 어텐션 점수가 낮은 시각 토큰도 여전히 인식 가능한 시각 정보를 포함할 수 있다. 예를 들어 위 그림의 분홍색 박스에 있는 당근 패치의 경우, ViT 유사도와 어텐션 점수는 낮았지만 LLaVA-Next는 80% 이상의 확률로 Carrot을 정확히 예측하였다. 반대로, ViT 유사도와 어텐션 점수가 높은 일부 패치들은 실제로는 인식 가능한 시각 정보를 포함하지 못하였다. 예컨대, Figure 1의 빨간 박스에 해당하는 흰색 영역의 6개 패치에 대해, LLaVA-Next는 Cat, Tree와 같은 무관한 텍스트 응답을 10% 이하의 낮은 확률로 예측하였다.

Finding 2. ViT−[CLS] 유사도와 text-to-image 어텐션 점수가 낮은 시각 토큰이 visual context에 상당한 영향을 미칠 수 있다.
예를 들어, 위 그림의 패치 #510을 제거했을 때 특정 후보(예: Soup, Chicken)의 예측 logit가 −2 ~ −3 수준으로 뚜렷하게 변하였다. 이로 인해 확률 분포에서 더 큰 차이가 발생했고, JSD 값 또한 높게 나타났다. 또한 #510의 주변 영역 역시 전체 이미지 정보에 큰 영향을 주었으며, 이는 모든 이미지 영역 중 가장 높은 JSD 값 중 하나였다. 반면, 패치 #523은 attention score와 ViT−[CLS] 유사도가 #510보다 한 자릿수 이상 높았음에도 불구하고, 해당 패치나 주변 영역을 제거했을 때 모델의 예측 변화는 미미했으며 JSD 값도 낮게 나타났다.

앞선 두 가지 발견을 보강하기 위해, 저자들은 VQAv2 데이터셋에서 총 6,400개의 이미지 패치(image patches)를 샘플링하여 실험을 수행하였다. 이 패치들의 결과는 ViT−[CLS] 유사도(similarity)와 text-to-image 어텐션 점수(attention score)에 따라 정렬하여 분석하였다. 위 그림과 같이, 어텐션 점수와 코사인 유사도가 낮아지더라도 top-1 확률 과 JSD 값이 비례적으로 감소하지 않고, 오히려 불규칙하게 변동하는 패턴을 보였다. 따라서 단순히 ViT−[CLS] 유사도나 어텐션 점수가 낮다는 이유만으로 해당 시각 토큰을 제거하는 것은 합리적이지 않음을 시사한다.
Method

개별 시각 토큰이 MLLM의 시각 이해 결과에 미치는 영향 분석을 기반으로, 저자들은 보다 신뢰할 수 있는 redundant visual token 식별 방법을 탐구하였다. 또한 단일 입력 및 leave-one-out(LOTO) 실험이 상당한 computational overhead를 유발한다는 점을 고려하여, 효율적인 visual token pruning을 위한 식별 후 탐색(identify-then-probe) 전략을 제안한다.
방법론의 전체 개요는 위 그림에 제시되어 있다. 구체적으로, training images에 대해 앞서 제안한 두 가지 실험적 프레임워크를 활용하여 redundant prototypes을 식별하고 이를 codebook에 저장한다. 이후 inference 단계에서는 이 코드북을 활용하여 새로운 입력 시각 토큰의 중복성을 탐색하고, 중복일 가능성이 높은 토큰을 제거한다.
Constructing the Redundancy Codebook.
저자들은 중복 시각 토큰을 제거하기 위해, 우선 다음 두 가지 기준을 충족하는 경우를 redundant candidates로 정의한다
1) 인식 가능한 시각 정보를 포함하지 않는 경우.
2) 해당 이미지의 전체 정보에 실질적으로 영향을 미치지 않는 경우.
또한 저자들은 서로 다른 이미지에서 발견된 일부 중복 후보들이 높은 유사도를 보인다는 사실 또한 관찰하였다. 이는 중복의 일반화 가능성을 가진다는 것을 시사한다. 이에 따라 저자들은 이러한 특성을 가진 중복 후보들을 redundant prototypes으로 정의하고, 이를 확장 가능한 중복 코드북에 저장한다. 이렇게 구축된 코드북은 다양한 상황에서 유연하고 확장 가능한 활용을 가능하게 한다.
Token-Centric Visual Redundancy Evaluation.
앞서 논의한 바와 같이, 낮은 top-1 probability은 MLLM이 개별 시각 토큰에서 유효한 정보를 인식하지 못한다는 것을 의미한다. 따라서 저자들은 임계값 $\tau_{prob}$ 를 설정하여 top-1 확률이 낮은 시각 토큰을 필터링하였다.

또한 인식 가능한 시각 정보를 포함하는 시각 토큰을 보다 정확히 식별하기 위해, t-SNE를 활용하여 이미지 내 시각 토큰들의 분포를 high-dimensional feature space에서 시각화하였다. 그 결과 위 그림과 같이 top-1 확률이 매우 낮은 시각 토큰들은 종종 outlier로 나타남을 보였다. 이에 따라 저자들은 Density Peaks Clustering(DPC) 알고리즘을 적용하여, 사전에 정의한 outlier threshold $ \tau_{out}$ 보다 작은 크기에 클러스터에 속하는 visual 토큰을 찾아낸다.
Context- Centric Visual Redundancy Evaluation.
앞서 논의한 바와 같이, 낮은 JSD 값은 개별 시각 토큰이 해당 이미지에 대한 MLLM의 이해에 미미한 영향을 준다는 것을 의미한다. 이에 따라 저자들은 thershold $\tau_{jsd}$를 설정하여 JSD 값이 낮은 시각 토큰을 필터링하였다. 이후 $ \tau_{prob}, \tau_{out}, \tau_{jsd}$로 필터링된 시각 토큰들의 교집합을 통해 중복 후보를 식별한다.

추가적으로, 저자들은 훈련 이미지에서 중복 후보를 식별한 뒤 이들이 테스트 이미지에서도 일반화될 수 있는지를 분석하였다. 구체적으로, 중복 후보들의 분포를 t-SNE로 시각화하여 살펴본 결과, 서로 다른 이미지에서 온 일부 중복 후보들이 high-density 클러스터를 형성하는 현상을 관찰하였다.
이러한 결과는 이미지가 달라도 특정 중복 후보들이 공통된 특징을 공유한다는 것을 의미하며, 이는 곧 일반화 가능성을 시사한다. 이에 따라 저자들은 DPC 알고리즘을 적용하여 미리 정의한 inlier thrshold $\tau_{in}$보다 큰 클러스터에 속하는 중복 후보들을 제거하였다. 결과적으로, 어떤 시각적 맥락에서도 실질적인 정보를 제공하지 않을 가능성이 높은 시각 토큰들을 최종적으로 모을 수 있었다.
Summary.
저자들은 총 4가지의 threshold를 사용하여 훈련 이미지로부터 N개의 visual token을 필터링하였다.
$$ {v_i}{i=1}^N = CC(TC(\mathbf{X} \mid \tau{prob}, \tau_{out}) \mid \tau_{jsd}, \tau_{in})$$
여기서 $ v_i \in \mathbb{R}^d $, $d$는 feature dimension이며 $TC(\cdot)$와 $CC(\cdot)$은 각각 token-centric 및 context-centric 중복성 평가 방법이다. 이렇게 도출된 redundant prototypes으로 이들을 모아 $C^{N \times d}$형태의 redundancy codebook을 구축한다.
Pruning Visual Tokens using the Codebook.
앞서 저자들은 redundant prototype을 식별하였다. 이를 바탕으로, 이러한 프로토타입과 높은 유사도를 가지는 시각 토큰일수록 중복일 가능성이 높으며, 따라서 제거하더라도 MLLM의 시각 이해 결과에 미치는 영향이 작을 것이라 추론한다.
이를 위해 저자들은 redundancy codebook $ C^{N \times d} $를 활용하여 테스트 이미지의 입력 시각 토큰 $ T^{L \times d} $의 중복성을 탐색한다. 구체적으로 다음과 같이 cosine similarity를 계산한다:
$$ S^{L \times N} = \text{norm}(T^{L \times d}) \cdot \big(\text{norm}(C^{N \times d})\big)^T$$
이때 $ \text{norm}$은 feature dimension에 대한 L2 normalization 알고리즘이다.
각 토큰의 중복 점수는 $N$개의 결과 중 최대 코사인 유사도로 정의된다. 이후, 사전에 정의된 threshold를 적용하여 중복 점수가 높은 토큰을 제거하고, 최종적으로 중복 점수가 낮은 $R$개의 시각 토큰만을 LLM에 전달한다.
Experiments
저자들은 제안한 방법론을 평가하기 위해 VQA, image captioning, multi-image and video comprehension task에서 수행하였다. 또한 baseline의 경우 LLaVA-1.5, LLaVA-Next, LLaVA-OneVision으로 평가하였으며, 각 모델마다 시각 토큰의 기여도를 평가하고자 별도의 codebook을 구축하였다.
또한 제안한 방법을 비교하고자 MLLMs의 intermediate state를 활용하는 대표적인 두 가지 접근법과 비교하였다.
1) Vision-Centric method: ViT−[CLS] 토큰과의 연관성이 낮은 시각 토큰을 제거.
2) Instruction-based method: LLM 내 마지막 텍스트 토큰이 시각 토큰에 할당하는 어텐션 점수를 활용

Single-Image Comprehension. 위 표는 제안 방법이 토큰을 극도로 줄여도 성능 유지가 가능함을 보인다. 또한 기존 intermediate state 기반 방법보다 성능이 우위 하는 것을 확인할 수 있다.

Multi-Image and Video Comprehension. 조금 신기했던 부분은 랜덤으로 토큰을 없애도 성능이 오른다는 점이다.

Ablation Study. 모든 threshold가 성능에 기여했으며, 특히 $\tau_{prob}$ 제거 시 성능이 급락함을 확인하였다.