본문 바로가기
Multi-modal

[Paper review] MODA: MOdular Duplex Attention for Multimodal Perception, Cognition, and Emotion Understanding

by 어저마저 2025. 7. 3.
ICML 2025 Spotlight
https://icml.cc/virtual/2025/poster/46210
Zhicheng Zhang, Wuyou Xia, Chenxi Zhao, Yan Zhou, Xiaoqiang Liu, Yongjie Zhu, Wenyu Qin, Pengfei Wan, Di Zhang, Jufeng Yang

Introduction

Large language models(LLMs)의 발전으로 인해 Multimodal large language models(MLLMs)은 다양한 모달리티를 통합적으로 이해하고 처리하는 데 있어 강력한 능력을 보여주고 있다. 이는 Artificial General Intelligence(AGI)를 달성할 수 있는 유망한 방향성을 제시하며, 모델이 인간과 유사한 능력을 갖기 위해서는 multimodal understanding, 즉 멀티모달 정보를 종합적으로 해석하고 추론하는 능력이 필수적이다. 특히 AGI 달성을 위해서는 단순 perception을 넘어 cognition과 emotion understanding과 같은 고차원 수준의 이해 능력이 핵심적으로 작용한다.

 

최근 MLLMs들은 기본적인 perception task에서는 어느 정도 성과를 보이고 있지만, 여전히 cognition과 emotion과 같은 정교한 세부 정보를 지각하는 데는 어려움을 겪고 있다. 실제로 HFM dataset의 2-class sarcasm detection task에서 3개의 SOTA model들이 50:50의 정확도를 보였으며 이는 random guessing 보다 성능이 낮다. 본 저자들은 dominant modality에 과도하게 집중하여, 다른 modality의 세부 정보가 간과되었기 때문이라고 주장한다.

 

실제로 저자들은 Case study(Fig (a),(b))를 통해 본 주장을 검증하였다. 위의 그림과 같이 MLLMs은 캐릭터의 시선을 포착하는데 어려움을 겪었으며, 이는 곧 emotion understanding 오류를 초래한다. 또한 저자들은 MLLMs의 attention layer 분석 결과(fig (c)) Text modality에 bias 되어있음을 발견하였으며 이를 defict disorder attention problem라고 명명하였다. 이는 layer를 거치면서 attention이 점점 약화되는 현상을 보였으며 그 gap은 최대 10배에 이르기도 하였다. 위와 같은 이유는 multimodal attention mechanisms이 self-attention과 cross-attention 상호작용 간의 불균형으로 인해 발생하며, 결론적으로 두 feature의 최적화가 이뤄지지 않는다. 이러한 직관을 통해 본 저자들은 두 요소를 명시적으로 분리하고 조절한다면, 두 modality 간 alignment를 최적화할 수 있음을 주장한다.

 

이를 위해 저자들은 MOdular Duplex Attention(MODA)을 제안한다. MODA는 self-modal과 cross-modal 두 파트로 나뉘며 각 부분에 별도의 modulated attention mask를 적용한다. 당연하지만 self-modal은 각각의 모달리티 내부에서 고유한 관계를 포착하는데 집중하며, cross-modal의 경우 두 modalities를 alignment 및 information exchange를 효과적으로하게 한다. 또한 이 모델의 핵심은 토큰들은 두 개의 gram matrices로 정의된 shared dual-modality representation space에 매핑하는 Duplex (V/T)-Aligner가 있다. 추가적으로 마스킹 패턴을 유연하게 적용하고 모델이 상황에 따라 적절한 모달리티에 집중할 수 있도록하는 Modular Masked Attention가 존재한다.

Methodology

Deficit Disorder Attention(DDA) Problem

Multimodal attention, 즉 cross-attention 은 멀티모달 영역에서 서로 다른 모달리티 간 토큰의 유사도를 기반으로 강호작용을 조정하는 핵심 메커니즘으로 기능한다. 하지만 저자들은 이에 대해 bias가 존재할 수 있음을 지적하며, 4가지 task에 대해 일련의 분석을 진행하였다.

 

먼저 저자들은 (a)에 나타나있 듯 visual 정보에 할당되는 attention 비중은 textual modality에 비해 현저히 낮은 것을 발견하였다. 이러한 현상은 현재 MLLMs들이 visual perception 능력이 부족하다는 기존의 문제와 일치한다. 저자들은 그 원인으로, MLLMs이 LLM을 기반으로 설계되어 text 처리에 최적화된 구조를 가지고 있으며, 이로 인해 시각적 특징이 충분히 반영되지 못하고 있다고 주정한다. 이러한 불균형은 현재 지배적인 아키텍처로 인한 필연적인 한계이며, 사실상 visual 정보 처리까지 text와 동일한 수준의 표현력으로 처리하기 어려운 상황임을 보여준다. 

 

추가적으로 (b)와 (c) 시각화를 통해, 모델의 하위 layer에서 cross-attention bias가 존재함을 관찰하였다. 특히 하위 layer들은  cross-modal interaction에 과도하게 집중하는 경향을 보이며, 이로 인해 inter-modal feature를 효과적으로 포착하기 못한다. 결과적으로 multimodal 통합에 있어 suboptimal 한 결과를 초래하게 된다.

 

이러한 관찰을 기반으로, 저자들은 DDA 문제를 다음과 같이 정의한다. 블록 $l$에서 visual token $x^{l}_{v}$ 과 text token $x^{l}_{t}$가 주어졌을 때 multimodal attention은 크게 두 가지 연결이 생긴다. 

  • Self-modal
    • text → text : $x_{t}^{l}\rightarrow x_{t}^{l+1}$ 
    • image → image : $x_{v}^{l}\rightarrow x_{v}^{l+1}$ 
  • Cross-modal 
    • text → image : $x_{t}^{l}\rightarrow x_{v}^{l+1}$ 
    • image → text : $x_{v}^{l}\rightarrow x_{t}^{l+1}$ 

이때 layer가 깊어질수록 ①image에서 image로 가는 연결, ②text에서 image로 가는 연결이 약해지는 경향이 있으며 직관을 바탕으로 다음과 같이 수식을 정의할 수 있다.

$$ \alpha_{v,t\to v}^{l}\propto \gamma ^{l},\gamma\neq 1 $$

이 연결이 layer마다 계속 반복되면, multi modality 정보 간 상호작용에서 오류가 누적된다. 이에 따라 전체 DDA 오류는 다음과 같이 정의된다.

$$ \mathbb{E}_{DDA}=\prod_{l}\gamma ^{l}\epsilon _{l} $$

이때 $ \epsilon _{l}$은 각 layer에서 발생하는 alignment error를 의미한다. 

MOdular Duplex Attention (MODA)

 

modality 간 gap이 발생할 때 저자들은 attention 내부에서 서로 다른 modality의 토큰을 alignment 하는 방식인 MODA를 제안한다. 이는 크게 modality alignment와 tokenfocus correction 부분으로 나뉜다.

 

Duplex Attention Alignment

직관적으로 두 modality 간 불일치를 줄이기 위해서는, 서로 다른 모달리티를 alignment 하는 것이다. 저자들은 diffusion model의 visual-language embedding space mapping 방식에서 영감을 받아, 각 모달리티의 token을 상대 모달리티의 embedding space로 mapping 하는 방식을 제안한다.

 

이를 위해, 각 modality의 token으로부터 생성된 gram matrix에 기반으로 해당 modality의 basis vector를 추출한다. 이 vector의 경우 각 modality의 semantic 정보를 압축한 것으로, 다른 modality로 전달하는 transfer function 역할을 하게 된다. 이 alignment 과정은 visual과 text를 처리하는 V-Aligner와 T-Aligner로 구성되어 있다,

 

구체적으로, $m^{th}$ modality에 대해 space bases는 normed gram matrix $ \left\| G^{m}\right\|\in \mathbb{R}^{d\times d} $에 따라 정의된다. 이때 $ G^{m}_{ij}$는 $i$번째 토큰과 $j$번째 토큰 간의 내적을 의미하며, 다음과 같이 계산된다.

$$ G_{ij}^m = \sum_{k=1}^{N_m} K_{ik}^m K_{kj}^m = \mathbf{K}^{m\top} \mathbf{K}^m $$

여기서 $K^{m}$ 은 $m^{th}$번째 modality에 해당하는 토큰들의 key state, $N_{m}$은 해당 모달리티에 속하는 토큰 수를 나타낸다. 이 Gram matrix는 같은 modality 내에서 토큰들 간 관계를 효과적으로 포착하며, 데이터의 intrinsic 구조를 유지하는 feature representation을 구성하는데 기여한다.

 

또한 저자들은 정규화된 Gram matrix는 cross-modal token transfer function의 역할을 한다고 주장한다. 이 구조는 다른 모달리티 $\overline{m}$ 토큰을 $m$ 모달리티로 변환하는 일종의 kernelized mapping function $f:\mathbb{R}^{d}\to \mathbb{R}^{d}$로 작동하며 aligned 토큰은 다음과 같이 계산된다. 

$$ \mathbf{K}^{\bar{m} \rightarrow m} = \mathbf{K}^{\bar{m}} \, \| \mathbf{G}^m \| $$

여기서 $ \mathbf{K}^{\bar{m}}$는 다른 모달리티 $ \bar{m}$에서 가져온 value representation이다. 이렇게 mapping 된 토큰은 기존 토큰과 다시 융합되어 rich한 표현을 생성하며 이는 모든 모달리티 간 토큰 유사도를 향상시키게 된다. 또한 저자들은 token merging 및 LoRA-based tuning을 활용하였으며, align 과정에서 token 간 행렬 합 연산이 단 한 번만 수행되기 때문에 해당 과정의 계산 복잡도는 토큰 수에 대해 linear하게 유지된다. 

 

Modular Attention Mask

Attention mask는 Transformer layer 전반에 걸쳐 토큰 간 정보 흐름을 제어할 뿐만 아니라, positional bias를 유도하는 역할을 한다. 저자들은 Modular Attention Mask를 도입함으로써 각 모달리티의 특성에 맞게 조정된 형태로 적용한다. 특히 multimodal attention이 self-modal과 cross-modal 두 가지로 나뉘는 것을 반영하여 마스크 역시 $\boldsymbol{M}^{m}$과 $\boldsymbol{M}^{\bar{m}}$로 분리하여 사용한다.

\begin{aligned}
O_{\text{self}} &= \text{Softmax}\left( \frac{Q^m \mathbf{K}^{m\top}}{\tau} + M^m \right) V^m \\
O_{\text{cross}} &= \text{Softmax}\left( \frac{Q^m \mathbf{K}^{\bar{m}\top}}{\tau} + M^{\bar{m}} \right) V^{\bar{m}}
\end{aligned}

앞선 Case study에서 관찰된 바와 같이, cross-modal 정보에 비해 attention이 한쪽 모달리티에만 bias되는 문제가 존재하며, Transformer 구조 특성상 일부 토큰이 지나치게 많은 토큰에 attention을 주는 경우 오히려 정보 손실이 발생할 수 있다. 이를 해결하기 위해 MODA는 각 토큰이 attention의 영향을 줄 수 있는 seqence length $n$으로 일정하게 제한하고, 초과된 부분은 pseudo-attention score로 채워 넣는다. 이 전략을 통해 중요하지 않은 정보는 자연스럽게 무시되도록 유도된다.

$$ A_{MM} = \left(
\begin{array}{cccc}
\mathbf{q}_1 \mathbf{k}_1^\top & p_{11} & \cdots & p_{1(n-1)} \\
\mathbf{q}_2 \mathbf{k}_1^\top & \mathbf{q}_2 \mathbf{k}_2^\top & \cdots & p_{1(n-2)} \\
\vdots & \vdots & \ddots & \vdots \\
\mathbf{q}_n \mathbf{k}_1^\top & \mathbf{q}_n \mathbf{k}_2^\top & \cdots & \mathbf{q}_n \mathbf{k}_n^\top
\end{array}
\right) $$

$$ p_{\text{base}} = 0, \quad p_{ij} = p_{\text{base}} - (j - 1)\beta $$

각 행은 $i$번째 토큰이 어떤 토큰에 attention 주는지를 나타내며, seqence length를 $n$으로 고정하였기에  $i$번째 행에는 총 $n-1$개의 pesudo-attention score가 포함된다. 이때 decay rate $\beta$ 기반으로 점수를 점진적으로 낮춰가며 덜 중요한 토큰에 대해 덜 집중하도록 유도한다. 

 

추가적으로 저자들은 normed gram matrix를 활용하여 각 토큰이 속한 모달리티 정보를 반영함으로써, 동일한 모달리티 내에서는 정확하고 집중된 정보 교환이 이뤄지고, 서로 다른 모달리티 간에는 보완적인 정보 통합이 가능하도록 구조를 설계하였다.

Experiment

 

위의 표를 통해 MODA가 multimodal perception 분야에서 우수한 성능을 보인 것을 확인할 수 있다.

 

Ablation Study

 

(a): 두 구성 요소(MDM, DAA)가 각각/동시에 사용될 때 시너지를 내며 가장 높은 성능을 보여준다.

(b): 다양한 alignment 방식에 대한 성능을 비교하였으며, 공분산 기반 alignmetn가 가장 효과적임을 보여준다.

(c): $X_{p}$, $X_{a}$는 각각 원래/align된 token을 의미하며, Con과 Add 각각 concat과 덧셈을 의미한다. 이 둘을 concat하는 방식이 가장 효과적으로 나타났다.

(d): 다양한 마스크 방식 간 비교 실험을 진행하였으며, Attn.은 Attention 기반 masking 방식이며 $[M]$이 논문에서 제안한 Modular Mask 방식이다.

 

Analysis of Attention

 

위 표는 emotion recogmition task에 대한 Attention 분포에 대한 시각화 결과를 나타낸다.

(a)의 경우 attention 분포에 대한 불균형과 Visual에 대해서는 간과하는 경향을 보인다. 하지만 (b)의 경우 균형 있는 기여가 보이지만 여전히 text 쪽에 bias가 존재하는 것 같다. 

 

위는 MODA에 대한 Case study결과이며 감정인식에 있어 정확한 응답을 생성하는지를 보여준다.