CVPR 2024
Arxiv
Github
Sicong Leng, Hang Zhang, Guanzheng Chen, Xin Li, Shijian Lu, Chunyan Miao, Lidong Bing
Introduction
Large Vision-Language Models (LVLMs)은 시각 입력으로부터 맥락적으로 적절한 텍스트 설명을 생성할 수 있는 능력 덕분에 다양한 응용을 가능하게 한다. 이러한 발전은 모델 아키텍처, 학습 방법론, 데이터 다양성 측면에서 지속적으로 이루어져 왔으며, 그 결과 성능 향상과 응용 범위의 확장을 이끌어냈다. 그러나 이러한 성과에도 불구하고 여전히 해결해야 할 중요한 한계가 존재하며, 그중 object hallucination 문제는 LVLM의 신뢰성과 실제 적용 가능성에 중대한 영향을 미친다.
object hallucination이란 LVLM이 생성한 텍스트가 의미적으로는 일관성을 가지지만 실제 이미지의 객체와는 일치하지 않는 현상을 말한다. 이는 통계적 편향과 단일 모달 사전 지식에 대한 과도한 의존에서 비롯된 것으로, LVLM의 근본적인 한계 중 하나이다. 이러한 환각 문제를 해결하는 것은 모델의 integrity, reliability 그리고 다양한 실제 응용에서의 적용 가능성을 확보하기 위해 필수적이다.
여러 연구에서 object hallucination 문제를 해결하기 위한 다양한 접근법이 제안되어 왔다. 초기 연구들은 small-scale Vision-Language Models(VLMs)을 대상으로 fine-grained modality alignment이나 data augmentation을 통해 객체 동시 발생(object co-occurrence)으로부터 비롯되는 통계적 편향을 줄이려는 시도를 했다. 그러나 LVLMs은 small-scale VLM과 동작 방식이 현저히 달라, 이러한 방법들을 일반화하거나 확장하는 데 한계가 있다.
최근에는 환각에 특화된 데이터셋을 활용한 fine-tuning, 사후(post-hoc) 수정기(revisor) 학습, 사실적으로 보강된 인간 피드백 기반 강화학습(factually augmented Reinforcement Learning from Human Feedback, RLHF) 등이 제안되었다. 이들 접근법은 전반적으로 성능 개선을 보였지만, 높은 computation cost과 상당한 인간의 노력을 요구한다는 한계가 있다. 따라서 단순하면서도 효율적인 접근법의 필요성이 제기된다.

저자들은 object hallucination을 유발하는 주요 요인을 통계적 편향과 단일 모달 사전 지식으로 지목하고, 이들에 대한 시각적 불확실성의 영향을 분석한다. 이러한 분석을 토대로, 저자들은 training-free 기법인 Visual Contrastive Decoding(VCD)을 제안한다.
그림에서 볼 수 있듯이 VCD는 원본 시각 입력과 distorted visual 입력으로부터 output distributions를 대조함으로써 보정 메커니즘으로 작동한다. 이를 통해 LLM에 의한 language priors에 대한 과잉 의존과 LVLM pretraining 코퍼스에서 기인하는 통계적 편향을 교정한다. 또한 VCD는 최소한의 계산 오버헤드만을 필요로 하여, 추가적인 훈련이나 외부 도구의 사용 없이 효율성을 확보한다는 점에서 기존 연구 대비 두드러진 장점을 가진다.
Methodology
본 연구에서 LVLM은 textaul query $x$와 visual $v$를 입력으로 받아 적절한 응답 $y$를 생성한다. 응답은 auto-regressive 방식으로 샘플링되며, 이는 수식적으로 $y_t \sim p_\theta (y_t \mid v, x, y_{<t})$ 로 표현된다.
디코딩 단계에서는 시각 입력과 일치하지 않는 토큰에 잘못된 확률이 할당되면서 object hallucination이 발생할 수 있다. 기존 연구에서는 이러한 원인이 학습 데이터에 내재된 통계적 편향(statistical bias)과 강력한 LLMs의 language priors에 대한 과도한 의존에서 비롯된다고 지적한다.
이에 대해 저자들은 먼저 모호한 입력을 활용해 이러한 바람직하지 않은 동작을 증폭한 뒤, 디코딩 과정에서 이를 contrast하는 방식으로 객체 환각을 완화하는 방법을 제안한다.
Visual Uncertainty Amplifies Hallucinations.
저자들은 시각적 불확실성이 language priors과 통계적 편향을 증폭시킨다는 가설을 검증하기 위해 분석을 수행한다. 이를 위해 원본 이미지에 가우시안 노이즈를 적용하여 시각적 불확실성을 도입하였으며, 이는 이미지 생성 분야에서 활용되는 forward diffusion 과정과 동일한 방식이다.

분석 결과, 그림에서 확인할 수 있듯 시각적 불확실성이 커질수록 LVLM은 시각적 증거를 간과하고 의사결정 과정에서 language priors에 과도하게 의존하는 경향을 보였다. 이는 LLM이 본래 방대한 텍스트 코퍼스를 기반으로 다음 단어의 확률을 예측하도록 설계되었기에 충분히 예상 가능한 결과라 할 수 있다. 따라서 모호한 시각 입력은 실제 시각적 맥락과 불일치하는 편향이나 가정을 유발할 수 있다.
저자들은 대부분의 비전-언어 사전학습 데이터셋이 MSCOCO를 기반으로 구축되었으며, 이는 본질적으로 불균형한 객체 분포와 편향된 객체 상관관계를 포함한다는 점에 주목하였다. 따라서 시각적 불확실성이 이러한 편향을 증폭시킬 수 있다는 가설을 검증하기 위해 두 가지 실험을 설계하였다.
- 왜곡된 시각 입력에서 LVLM이 자주 등장하는 객체에 대해 환각을 더 많이 발생시키는지 여부
- 왜곡된 시각 입력에서 LVLM이 실제 정답 객체와 co-occurrence하는 객체를 더 많이 환각 하는지 여부

분석 결과, 위 그림처럼 LVLM이 빈번한 객체와 co-occurring objects에 대해 환각을 더 많이 일으키는 뚜렷한 경향을 보여주었다. 이는 불균형한 객체 분포와 훈련 데이터로부터 계승된 허위 상관관계에 기인한 현상으로 해석된다.
Visual Contrastive Decoding.
앞선 분석 결과, 시각적 불확실성은 언어 사전 지식의 의존도를 증폭시키고 사전학습 데이터에 존재하는 편향에 더 크게 영향을 받아 hallucination을 심화시킨다. 이를 해결하기 위해 저자들은 Visual Contrastive Decoding(VCD)을 제안한다. VCD는 원본 이미지와 왜곡된 이미지로부터 생성된 출력 distributions를 대조함으로써, LVLM 내의 통계적 편향과 언어 사전 지식 의존을 억제한다. 이 과정은 추가적인 훈련이나 외부 사전학습 모델을 필요로 하지 않아 계산 효율성이 높다.
구체적으로 텍스트 질의 $x$와 시각 입력 $v$가 주어졌을 때, 모델은 (1) 원본 이미지 $v$에 조건부로 생성된 분포와 (2) 왜곡된 이미지 $v′$에 조건부로 생성된 분포를 산출한다. 이후 두 분포의 차이를 활용해 새로운 대조 확률 분포 $p_{vcd}$를 계산한다:
$$ p_{vcd}(y \mid v, v', x) = \text{softmax}\left[(1+\alpha)\text{logit}_{\theta}(y \mid v, x) - \alpha\text{logit}_{\theta}(y \mid v', x)\right] $$
여기서 $ \alpha$값이 클수록 두 분포 간의 차이를 더욱 강하게 증폭하며, $ \alpha=0$일 경우 일반적인 디코딩으로 출력된다.
본질적으로 VCD는 보정 매커니즘으로 작동하여 hallucination의 유발 가능성이 높은 분포와의 대조를 통해 줄일 수 있다. 직관적으로 VCD는 $ p_{\theta}(y \mid v, x) $와 $ p_{\theta}(y \mid v', x) $ logit을 구별하는 일종의 contrastive ensemble로 해석될 수 있다. 이는 이미지 생성에서 일반적으로 사용되는 대조 목적 함수와 유사하다. 예를 들어 diffusion classifier-free에서 control factor $c$를 사용하여 $ (1+\alpha)\epsilon_{\theta}(x, c) - \alpha \epsilon_{\theta}(x) $ 형태로 diffusion noise를 추정한다.
앞서 제안된 대조 확률 분포 $p_{vcd}$에 따르면 왜곡된 시각 입력의 영향을 받은 모델의 전체 출력에 대해 페널티를 부여할 수 있다. 하지만 이 또한 기본적인 언어 규칙과 상식적 추론을 여전히 유지할 수 있어 타당하지 않다. 추가적으로 무차별적인 페널티는 유효한 출력까지 억제하여, 오히려 개연성이 낮은 토큰을 생성할 수 있다.
따라서 저자들은 이를 해결하기 위해 원본 시각 입력으로부터 얻은 출력 분포의 신뢰도에 기반한 Adaptive Plausibility Constraints를 도입하였다:
$$ \mathcal{V}_{\text{head}}(y{<t}) = { y_t \in \mathcal{V} : p_{\theta}(y_t \mid v, x, y_{<t}) \geq \beta \max_{w} p_{\theta}(w \mid v, x, y_{<t}) }, $$
$$ p_{vcd}(y_t \mid v, v', x) = 0, \quad \text{if } y_t \notin \mathcal{V}{\text{head}}(y{<t}), $$
여기서 $ \mathcal{V}$는 LVLM의 output vocab이고, $\beta \in [0,1]$ 다음 토큰 분포를 truncation을 제어하는 hyperparameter이다.
최종적으로 VCD와 이를 결합하면 최종 공식은 다음과 같다:
$$ y_t \sim \text{softmax}\left[ (1+\alpha),\text{logit}_{\theta}(y_t \mid v, x, y{<t})\\- \alpha,\text{logit}_{\theta}(y_t \mid v', x, y{<t}) \right],\\ \text{subject to } y_t \in \mathcal{V}{\text{head}}(y{<t}). $$
이를 통해 contrast distribution은 정교하게 보정되고 신뢰도가 강화된다. 이러한 접근은 VCD의 잠재적 부작용을 효과적으로 상쇄하여, 개연성이 낮은 토큰 생성을 방지하고 최종적으로 생성 결과의 integrity를 보장한다.
Experiments
저자들은 제안한 방법론을 검증하기 위해 LVLM Baseline으로 LLaVA-1.5 ,InstructBLIP 그리고 Qwen-VL을 사용하였다. 또한 Table의 Regular의 경우 별도의 디코딩 전략이 없는 것을 의미한다.
POPE dataset 결과. random → popular → adversarial 순으로 이동할수록 성능이 명확히 저하되는 경향을 보였으며, 이는 LVLM에 내재된 통계적 편향이 객체 환각 문제에 크게 기여한다는 저자들의 가설을 검증한다.

MME Hallucination Subset 결과. 모든 모델에서 객체 수준 환각을 다루는 능력이 일관되게 향상되었다. 주목할 점은 position 점수가 상대적으로 떨어지는 것을 확인하였으며 VCD에 의한 개선 또한 미미하였다. 이는 LVLM이 위치 추론 능력이 상대적으로 약함을 시사한다.

MME Full Set 결과. perception 기반 과제에서 일관된 성능 향상이 나타났으며 동시에 기존 recognition competency는 유지되었다. 이는 VCD가 통계적 편향과 언어 사전 지식을 줄임으로써, 시각적으로 근거 있는 분석을 보장한 것으로 해석할 수 있다.

시각적 불확실성이 hallucination에 미치는 영향. 저자들은 시각적 불확실성이 커질수록 object hallucination이 커지는 것을 확인하였다.

Case Study 결과. 기존 모델은 chair과 자주 동시에 등장하는 table 및 fork와 같은 것이 빈번하게 등장하지만, VCD를 적용 후 완화되는 것을 확인하였다.
