본문 바로가기
Multi-modal

[Paper review] ControlMLLM: Training-Free Visual PromptLearning for Multimodal Large Language Model

by 어저마저 2025. 8. 25.
NeurlPS 2024
ArXiv
Github
Mingrui Wu, Xinyue Cai, Jiayi Ji, Jiale Li, Oucheng Huang, Gen Luo, Hao Fei, Guannan Jiang, Xiaoshuai Sun, Rongrong Ji

Introduction

최근 GPT-4와 Llama와 같은 Large Language Models(LLM)의 개발과 활용이 증가하면서, 인간이 생성한 다양한 질문에 대해 뛰어난 답변 생성을 보여주고 있다. 이러한 흐름을 기반으로 LLM을 시각적 입력과 통합하려는 시도가 이루어졌고, 그 결과  Multimodal Large Language Models(MLLM)이 등장하였다.

 

그러나 기존 MLLM은 coarse image-level alignment에 의존하는 한계가 있다. 이로 인해 세밀한 영역에 대한 설명이나 추론을 위해서는 오직 텍스트 프롬프트으로만 지시할 수 있다. 하지만 텍스트만으로는 이미지 속 미묘한 시각적 특징을 충분히 포착하기 어렵다.

 

이러한 문제를 해결하기 위해 최근 연구들은 MLLM에 referring ability을 통합하는 방법을 제안하였다. 구체적으로는, 왼쪽 그림과 같이 특정 객체나 영역의 좌표를 직접 지정하여 입력으로 제공할 수 있도록 하는 방식이다. 그러나 이러한 접근은 높은 비용이 요구되며, 새로운 도메인이나 새로운 MLLM에 적응하려면 모델을 다시 재훈련해야 하는 부담이 존재한다.

 

이에 저자들은 Training-free MLLM에 시각적 프롬프트를 주입하기 위한 방법을 제안한다. 이 방법은 learnable latent variable optimization를 기반으로 수행된다. 이 접근은 MLLM 디코더에서 생성되는 어텐션 맵에 대한 관찰에서 출발하는데, 어텐션 맵은 픽셀과 텍스트 프롬프트 토큰 간의 관계를 모델링하며, 생성된 텍스트에 큰 영향을 미치는 풍부한 의미적 관계를 포함하고 있다.

 

하지만 기존 MLLM은 전형적으로 시각적 표현과 언어적 표현 간의 gap을 해결하기 위해 MLP Layer를 fine-tuning 하는 과정을 필요로 한다. 이로 인해, MLP 레이어의 출력은 MLLM 디코더의 어텐션 레이어에서 텍스트 프롬프트 토큰과 픽셀 간의 관계에 간접적으로 영향을 미치게 되고, 결과적으로 모델의 출력까지 변화시킬 수 있다.

 

이에 따라 저자들의 핵심 아이디어는 추론 과정에서 MLP의 출력으로부터 생성된 visual tokens을 조정함으로써 MLLM의 출력을 변화시킬 수 있다는 직관에서 출발한다. 즉, attention layer에서 어떤 text prompt tokens이 어떤 visual tokens에 주의를 기울일지 제어할 수 있다는 것이다.

 

구체적으로, 저자들은 visual tokens을 추가적인 learnable latent variable로 보강하고, 이후 이를 energy function 기반으로 최적화한다. 이 energy function은 text tokens과 visual tokens 간 attention map에서 referring regions의 강도를 강화하도록 설계되어 있다.


Method

저자들은 전통적인 훈련 방식을 극복하기 위한 Training-free 방법을 제안한다. 이는 MLLM의 파라미터를 고정한 상태로 유지하며 훈련 데이터셋의 샘플을 이용한 어떠한 훈련이나 fine-tuning도 필요하지 않다. 

 

Analysis of the Attention in LVLMs.

 

저자들은 먼저 모델의 출력과 입력 픽셀 간의 연관성을 어떻게 해석할 수 있는지를 이해하고자 한다. MLLM은 일반적으로 입력을 기반으로 autoregessive하게 출력을 생성하기 때문에, 입력의 어떤 부분이 출력에 가장 큰 영향을 미치는지를 결정할 수 있다.

 

Figure 2의 첫 번째 행에서 보이듯, attention map은 텍스트 프롬프트에 의해 조건화된 상태에서 시각 토큰이 출력에 미치는 영향을 모델링한다는 것을 관찰할 수 있다. 따라서 attention map은 모델 출력과 입력 픽셀 간의 관계에 대한 interpretability를 제공할 뿐 아니라, 모델 출력을 가이드하는 역할까지 수행할 수 있다.

 

자연스러운 아이디어는 attention map을 직접 수정하여 모델의 출력을 변화시키는 것이다. 구체적으로 다음과 같이 참조 영역에 해당하는 visual token과 관련된 attentino에 조정 계수 $η$을 추가한다:

$$A^{(\tau)} = \text{softmax}\left(\frac{[e_v, e_t]^{(\tau)} \cdot ([e_v, e_t]^{(\tau)})^T}{\sqrt{d_k}} + M \right)$$

$$M_i = \eta \quad \text{if } i \in r \quad \text{else } 0$$

 

하지만 이 조정 계수 $η$의 경우 신중한 선택이 필요하다. $η$이 너무 작으면 위 그림 (a)와 같이 효과적인 제어가 이뤄지지 않으며, 너무 크면 LLM의 언어 능력에 영향을 미칠 수 있다(그림 (c)). 추가적으로 저자들은 모델 추론 과정에서 0번째 단계에서 attention map을 조작하는 것만으로도 충분하다는 것을 발견하였다. 이 단계가 텍스트 프롬프트와 가장 직접적으로 연결되어 있으며, 단계별로 attention 조정 시 LLM 표현에도 영향을 미친다. 

 

결론적으로, attention map을 직접 수정하는 접근layer 간 상호작용을 무시한다는 점에서 한계가 있으며, 또한 모든 layer의 visual token이 최종 출력을 결정하지는 않기 때문에 실행 가능한 방법으로 보기 어렵다.

 

또한 저자들은 대부분의 MLLM에서 MLP layer가 일반적으로 image-text alignment를 위해 학습된다는 점에 주목한다. 이는 MLLM이 MLP layer의 파라미터를 학습하여 visual token을 수정함으로써, 간접적으로 attention map의 값에 영향을 준다는 것을 의미한다. 즉, LLM에 입력되는 visual token은 attention map에 직접적인 영향을 미친다.

 

한편, 입력된 text prompt 역시 모델 출력에 직접적인 영향을 미치지만, 본 연구에서는 출력과 입력 이미지 간의 상관관계에 초점을 두기 때문에 text prompt가 출력에 미치는 직접적인 영향은 고려하지 않는다.


Analysis of the Attention in LVLMs.

본 논문의 핵심 아이디어는 visual token을 편집하여 attention map에 간접적으로 영향을 주고, 이를 통해 참조 영역에 집중하도록 하는 것이다. 이를 위해 input referring와 attention map 간의 관계를 계산하는 energy function을 기반으로 학습 가능한 latent variable을 최적화한다.

 

이 과정에서 먼저 어떤 attention map을 사용할지를 결정해야 한다. 한 가지 접근법은 각 text token과 모든 visual token 간의 attention map을 활용하는 것이다. 그러나 일반적으로 모든 text token이 중요한 것은 아니며, 실제로는 소수의 핵심 단어만 결과에 큰 영향을 미친다. 

 

구체적으로, 본 방법은 box, mask, scribble, point를 포함한 네 가지 형태의 referring을 지원한다. 이를 위해 저자들은 두 가지 형태의 energy function을 사용한다. 즉, box와 mask referring에는 hard mask 기반 energy function을, scribble과 point referring에는 soft mask 기반 energy function을 적용한다.

 

Hard Mask-based Energy Function(box & mask referring). 먼저 저자들은 learnable latent variable $p_v$를 $e_v$와 동일한 shape의 0으로 초기화하고 이를 $e_v$에 더한다. 그러면 context token과 새로운 visual token 간의 관계를 모델링하는 N개의 attention layer로부터 N개의 attention map을 얻을 수 있다. 

 

주어진 referring box 또는 mask가 있으면 이를 binary mask로 변환한다. 이후 N개의 attention map으로부터 average pooling 하여 얻은 attention map $ (A^{(ct)}$와 이 마스크를 기반으로 mask-based energy function을 계산한다:

$$E\left(A^{(ct)}, r\right) = \left( 1 - \frac{\sum_{i \in r} A^{(ct)}_i}{\sum_i A^{(ct)}_i} \right)^2$$

여기서 $r$은 referring region을 나타낸다. 이후 위의 loss function의 backpropagation을 계산하여 learnable latent variable을 업데이트한다:

$$p_v \leftarrow p_v - \alpha \nabla_{p_v} E\left(A^{(ct)}, r\right)$$

여기서 $\alpha>0$은 guidance 강도를 제어하는 hyper-parameter이며 위 식을 최적화한다. 이를 통해 간접적으로 attention map을 참조 영역에서 더 강한 응답을 내도록 유도한다. 결과적으로 영역 $r$의 시각적 콘텐츠가 출력에 미치는 영향이 강화된다.

 

Soft Mask-based Energy Function (scribble & point referring). scribble과 point referring의 경우 region 개념이 없기 때문에 Hard Mask를 적용할 수 없다. 따라서 저자들은 대안적으로 distance matrix $D$에 기반하여 Soft Mask-based Energy Function을 제공한다. $D$는 주어진 scribble이나 point에 OpenCV의 distanceTransform 함수를 적용하여 계산된다. 이후 soft mask 기반 energy function은 다음과 같이 정의된다:

$$E\left(A^{(ct)}, r\right) = \left( 1 - \frac{\sum_{i \in r} A^{(ct)}_i}{\sum_i A^{(ct)}_i} \right)^2$$

여기서 $\alpha$는 Gaussian 함수의 표준편차로 0.1로 계산되며 위 식을 통해 $p_v$를 최적화하게 된다.

 

마지막으로 저자들은 모델 추론의 0번째 단계(즉, 아직 토큰 생성 전 단계)에서 learnable latent variable을 $T$번 반복적으로 최적화한다. 또한 overfitting 방지를 위해 Early Stop(ES)과 Exponential Moving Average(EMA) 전략을 적용하여 모델의 안정성을 강화하였다.


Experiments

Applications

 

Referring with Different Visual Prompts. Attention Map. 시각화 결과, 제안 방법은 response 영역과 생성된 설명 간의 상관관계를 기본 모델보다 더 강하게 보여준다.

 

Impact on Hallucinations. 또한 Figure 5의 (c, d)에서 확인할 수 있듯, hallucination 문제를 완화하는 효과를 보였다.

 

Out-of-Domain Task. Ferret과 비교했을 때, 제안 방법은 참조 영역 내 텍스트를 정확히 식별하였으며 모바일 스크린샷의 앱 인식에서도 더 우수한 성능을 보였다.


Comparisons.

 

Comparison on Referring Object Classification Task. LVIS 데이터셋 기반으로 box, mask, scribble, point를 포함한 총 1,748개의 질문을 구성해 실험을 진행하였다. 실험 결과 제안 방법은 box referring에서 GPT4-ROI보다, point referring에서 Shikra-7B보다 더 좋은 성능을 보였다.

 

Comparison on Referring Text Classification Task. 저자들은 Referring Text Classification (RTC) 태스크를 통해 out-of-domain 전이 성능을 평가했다. COCO-Text 기반 1,372개 질문으로 box·mask referring만 실험했으며, 모든 학습 기반 방법은 일반화 성능이 낮았다. Ferret조차 55.47% 정확도에 그친 반면, 제안하는 training-free 방법은 out-of-domain 상황에서도 가장 우수한 성능을 보였다.

 

More Tasks and MLLMs. 저자들은 Referring Description Task와 다양한 MLLM(LLaVA-1.5-7B, InstructBLIP-7B)을 대상으로 ROC/RTC 태스크를 수행했다. 제안 방법은 모든 모델에서 일관되게 성능이 향상되었다.


Ablation Study.

 

Impact of T and α. T(최적화 반복 횟수)와 α는 모델의 참조 영역 집중도와 정확도 간 trade-off에 영향을 주며, relevancy score ≈ 0.18일 때 가장 안정적인 성능을 낸다.

 

Impact of EMA and ES. 위 결과와 같이 EMA(β)와 ES를 함께 쓰면 overfitting을 줄이면서 성능과 안정성을 동시에 확보할 수 있다.