CVPR 2025
https://arxiv.org/abs/2503.01261
Guotao Liang, Baoquan Zhang, Zhiyuan Wen, Junteng Zhao, Yunming Ye, Kola Ye, Yao He
Introduction
최근 vector quantization(VQ) 기반 이미지 모델링은 이미지 생성 분야에서 각광받고 있다. VQ 기반 이미지 모델링의 핵심은 encoder-quantizer-decoder 프레임워크 기반 학습을 통해 풍부한 이미지 특성을 포착한 후 코드북을 통해 autoregression 혹은 discrete diffusion 방식을 활용해 고품질의 이미지를 생성할 수 있다.

VQ 방식에서의 핵심인 코드북을 보다 robust 하게 학습시키기 위해 adversarial loss 도입, compect code sequence 학습, 코드북 collapse 문제 해결 등 다양한 기법들이 제안되어 왔다. 그러나 이러한 접근은 주로 단일 모달 환경에 국한되어 있으며, 최근에는 위의 그림과 같이 text-alignment를 통해 멀티모달 환경에서 코드북을 학습한 LG-VQ가 제안되었다.

저자들은 LG-VQ가 코드북과 텍스트 간의 alignment가 충분하지 않다는 한계를 지닌다고 지적한다. 이는 주로 기존 이미지 캡션이 지나치게 간결하다는 점에서 기인한다. 위의 그림과 같이, 기존 캡션들은 주로 주요 객체에만 초점을 맞추고 있으며, 배경이나 기타 핵심 요소에 대한 설명은 생략되어 있다. 이러한 짧은 캡션은 충분한 semantic information을 담기 어렵고, 이는 곧 text-aligned 코드북 학습의 성능을 저하로 이어진다.
이를 해결하기 위해, 저자들은 최근의 Vision-Language Models(VLM)에서 영감을 받아, 각 이미지에 대해 보다 상세한 설명을 생성하는 VLM을 활용한 Text-Augmented VQ (TA-VQ) 프레임워크를 제안한다. 이 방식은 기존의 간결한 캡션과 달리, 더 포괄적인 설명을 제공하며, 장문을 통해 보다 풍부한 semantic knowledge을 확보할 수 있다. 이를 바탕으로 보다 robust 코드북을 학습하고 text-alignment 성능을 향상시킬 수 있다.
그러나 확장된 텍스트는 수백 단어에 이를 수 있어, 핵심 의미 정보를 효과적으로 포착하기 어렵고, 인코딩 시 computational resources 소모가 크다는 문제가 존재한다. 이에 저자들은 텍스트를 word, phrase, sentence 수준으로 세분화하여 인코딩하는 방식을 제안한다. 이를 통해 핵심 의미 정보를 다양한 수준의 세분화로 표현함으로써, 장문의 의미를 온전히 반영할 수 있다.
하지만 이러한 접근은 multi-granularity text semantics와 단일 코드 시퀀스 의미 간의 구조적 불일치로 인해 직접적인 alignment를 어렵게 만든다. 이를 해결하기 위해, 저자들은 이미지를 multi-hierarchical code representation으로 인코딩하는 hierarchical encoder를 제안한다. 이 인코더는 각 layer가 특정한 의미 수준의 텍스트 세분화와 대응되도록 설계되어, 이미지 코드와 텍스트 의미 간 보다 정밀하고 구조적으로 일관된 정렬 관계를 보장한다.
또한, 이러한 일관된 정렬을 바탕으로 저자들은 sampling-based alignment strategy을 새롭게 제안하며, 이는 과도한 계산 비용 없이도 세밀한 수준의 codebook-text alignment을 가능하게 한다고 주장한다.
Methodology

앞서 설명한 바와 같이, 기존의 text-aligned codebook은 지나치게 간결한 text description으로 인해 충분한 semantic information를 제공하지 못하는 한계가 있었다. 이러한 문제를 해결하기 위해, 저자들은 위의 그림과 같이 TA-VQ라는 새로운 코드북 학습 프레임워크를 제안한다.
Step 1: Text Generation.
기존 연구들이 제한적이고 간결한 텍스트만 사용하는 것과 달리 본 연구에서는 ShareGPT4V를 활용하여 각 이미지에 대해 보다 길고 상세한 텍스트를 생성한다. 구체적으로 저자들은 $ \mathit{“Analyze the im- age in a comprehensive and detailed manner”}$ 프롬프트와 함께 이미지를 ShareGPT4V에 입력하여 확장된 text description을 생성한다. 해당 프롬프트는 모든 이미지에 대해 일관되게 적용되었다.
Step 2: Multi-Granularity Text Encoding.
장문 텍스트는 보다 rich한 semantic knowledge를 제공할 수 있지만, 이를 효과적으로 인코딩하기 위해서는 몇 가지 주요 과제가 존재한다. 이를 해결하기 위해 저자들은 word, pharse, sentence의 여러 세분화 수준으로 나누어 인코딩하는 방식을 제안한다. 구체적으로 장문 텍스트 $t$가 주어졌을 때 텍스트 전처리 도구를 사용하여 모든 문장과 구를 추출한다. 이후 BERT를 통해 인코딩을 수행하여 다음과 같은 semantics 표현을 얻을 수 있다:
sentence semantics: $t_s = \{ s_1, s_2, \cdots, s_{|t_s|} \}, \quad s_i \in \mathbb{R}^d$
phrase semantics: $t_p = \{ p_1, p_2, \cdots, p_{|t_p|} \}, \quad p_i \in \mathbb{R}^d$
단어의 경우 모든 단어를 인코딩하지 않고 시각적으로 중요한 명사, 형용사, 수사만을 선택하여 표현을 얻는다:
word semantics: $t_w = \{ w_1, w_2, \cdots, w_{|t_w|} \}, \quad w_i \in \mathbb{R}^d$
이와 같이 다양한 수준의 text semantic을 활용함으로써, 정보 손실 없이 장문 텍스트를 효과적으로 인코딩할 수 있으며, 세밀한 수준의 alignment를 달성할 수 있다.
Step 3: Semantic Alignment.
앞서 언급한 바와 같이 single code sequence와 다중 세분화 텍스트 의미 간에 구조적으로 inconsistent alignment 관계가 존재하기 때문에 직접적으로 alignment는 어렵다. 이를 해결하기 위해 본 연구에서는 이미지를 다중 계층 코드 표현으로 인코딩하고 양자화할 수 있는 hierarchical encoder를 제안한다. 이러한 설계는 각 계층이 특정 세분화 수준의 텍스트 의미와 대응되도록 구성된다. 하위 계층은 basic semantic을 포착하고, 상위 계층은 보다 abstract semantic을 인코딩한다. 이처럼 계층적으로 구성된 이미지 표현은 자연어에서 word → phrase → sentence로 이어지는 의미의 계층 구조와 유사하여 텍스트 의미와 alignment를 보다 자연스럽게 수행할 수 있다.
이미지가 주어지면 다음과 같이 세 가지 계층의 grid feature로 인코딩한다:
$$\hat{Z}_h = \{ \hat{Z}_{f_1}, \hat{Z}_{f_2}, \hat{Z}_{f_3} \}$$
$$\hat{Z}_{f_j} \in \mathbb{R}^{\frac{H}{f_j} \times \frac{W}{f_j} \times d_z}, \quad f_j \in \{4, 8, 16\}$$
여기서 $ \hat{Z}_{f_1}$는 하위 계층, $ \hat{Z}_{f_3}$은 상위 계층을 나타낸다. 이후 각 계층별 grid feature에 대해 양자화를 수행하여 $Z_h = \{ Z_{f_1}, Z_{f_2}, Z_{f_3} \}$를 얻는다.
Sampling-based Alignment Strategy
앞서 multi-hierarchical image code representation과 multi-granularity text semantics을 추출하였다. 이후 저자들은 이 둘 간의 alignmet 방법을 $ Z_{f_3}$와 $t_3$를 예시로 설명한다. 이 둘은 서로 크기가 일치하지 않으며($|Z_{f_3}| \ne |t_s|$) 데이터셋 상에도 explicit한 alignment가 존재하지 않기 때문에, 양자 간 거리를 직접 측정하여 최적화하는 것은 어렵다. 직관적인 접근 방식으로 mean represenation을 기반으로 거리를 계산하는 방법이 있으나, 이는 local semantic information을 간과한다.
저자들은 semantic alignment의 해결책으로 optimal transport problem으로 정의한다. 즉 코드북 표현에서 텍스트 표현으로의 transport cost를 최소화함으로써 codebook-text semantic alignment를 달성하고자 한다. 이에 따라 Wasserstein distance를 사용하여 $ Z_{f_3}$와 $t_3$ 간의 최적 수송 비용을 계산한다.
구체적으로 $ Z_{f_3}$는 공급자 $t_3$는 소비자로 간주할 수 있으며, 공급자 $i$의 코드 표현 $z_i$에서 소비자 $j$의 문장 표현 $s_j$로의 단위 수송 비용은 다음과 같이 Euclidean distance로 정의된다:
$$\gamma_{ij} = \left\| z_i - s_j \right\|_2$$
Complexity Problem. optical flow $F$를 계산하는 데 있어 최악의 경우 $O(\max(|Z_{f_3}|^3, |t_s|^3))$가 수행될 수 있다. 이때 computation cost 대부분이 $|Z_{f_3}|$에서 발생된다는 점에 저자들은 주목하여 이를 해결하기 위해 continuous distribution $ \mu $와 discrete distribution $\nu$ 사이의 Wasserstein distance가 충분히 작아지도록 하는 FNN가 존재한다는 것을 이용한다.
Theorem
$\mu \in \mathcal{P}_2(\mathbb{R}^d)$가 Radon–Nikodym density $\rho(x)$를 가지는 Lebesgue measure에 대해 절대 연속인 분포라고 하자.
또한 $\nu = \sum_{i=1}^n \nu_i \delta_{y_i}$는 ${y_j}_{j=1}^n \subset \mathbb{R}^d, \nu_j \geq 0, \sum_{j=1}^n \nu_j = 1$ 이며 이때 $\delta$는 Dirac 델타 함수임.
그러면, 임의의 $ \epsilon > 0$에 대해, 충분히 큰 너비와 깊이를 가진 fully connented deep neural network $u(\cdot) : \mathbb{R}^d \to \mathbb{R}$가 존재함.
결론적으로 gradient $\nabla u(\cdot)$로 정의된 distribution $\nabla u(\mu)$와 $\nu$ 사이의 Wasserstein 거리는 $\epsilon $보다 작게 만들 수 있음.
결론적으로 $t_s$를 discrete distribution으로 간주하여 $Z_{f_3}$를 가우시안 분포로 모델링한다. 이를 통해 reparameterization trick을 이용하여 $|t_s|$개의 feature vector를 샘플링 한 뒤 이를 기반으로 Wasserstein distance를 계산한다. (reparameterization trick의 경우 본 논문 리뷰에 주된 부분은 아니나, 방법론을 이해하기 위해서는 꼭 필요한 내용이니 생소하신 분들은 아래 블로그를 참고하면 좋을 것 같다.)
https://velog.io/@nochesita/딥러닝-Reparameterization-Trick
[딥러닝] Reparameterization Trick
생성모델에 reparameterization trick이 중요하다고? 그게 뭔데?
velog.io
이러한 접근은 계산 복잡도를 $O(|Z_{f_3}|^3) \rightarrow O(|t_s|^3) $로 줄일 수 있는 장점이 존재한다. 추가적으로 저자들은 계산 burden을 줄이기 위해 전체 $|t_s|$를 사용하는 대신 $q$개의 샘플만 선택하여 align을 수행함으로써 계산 복잡도는 $O(q^3)$까지 감소하게 된다.

구체적으로 위의 그림과 같이 본 저자들은 FNN을 활용하여 $Z_{f_3}$를 가우시안 분포로 모델링한다:
$$ \begin{align}
m_{f_3} &= \text{Mean}(Z_{f_3}), \\
\mu_{f_3} &= \text{FNN}^{f_3}_u(m_{f_3}), \\
\Sigma_{f_3} &= \text{diag}(\exp(\text{FNN}^{f_3}_\sigma(m_{f_3}))).
\end{align} $$
그다음 Theorem에 따라 문장 정보 $t_s$를 이산 분포 $\mathcal{P}{t_s} \triangleq \frac{1}{|t_s|} \sum{s \in t_s} \delta_s$로 정의한다.
이제 위에서 정의한 균등 분포 $ \mathcal{P}{t_s}$로부터 $q$개의 target 문장 semantic vector ${y_i^{tar} \mid 1 \leq i \leq q}$를 샘플링한다.
다음으로 저자들은 얻은 샘플에서 reparameterization trick을 통해 가우시안 분포 ${\xi_i \sim \mathcal{N}(\mu_{f_3}, \Sigma_{f_3}) \mid 1 \leq i \leq q}$를 얻고 이 분포에서 ${\xi_i \sim \mathcal{N}(\mu_{f_3}, \Sigma_{f_3}) \mid 1 \leq i \leq q}$를 생성한다. 이후 각 샘플을 전용 FNN에 통과시켜 예측 표현 ${y_i^{pre} = \text{FNN}^{f_3}(\xi_i) \mid 1 \leq i \leq q}$를 얻는다.
최종적으로 예측된 $y^{tar}$와 $y^{pre}$간의 Wasserstein 거리를 최소화하는 방향으로 alingment loss $\mathcal{L}_{t_s} = \mathcal{W}(y^{pre}, y^{tar})$를 정의한다. 이때 거리는 Sinkhorn-Knopp 알고리즘을 통해 근사적으로 계산되며, 계산 복잡도는 $O(q^2)$ 이다.
Training Objective
위의 과정을 통해 저자들은 $\mathcal{L}_{t_w}$와 $\mathcal{L}_{t_p}$ 를 각각 계산할 수 있다. 이들은 각각 $Z_{f_1}$와 $t_w$, $Z_{f_2}$와 $t_p$ 간의 alignment loss이며 이를 제어하기 위해 총 3개의 하이퍼파리미터를 사용하였다. 최종적으로 전체 objective function은 다음과 같이 정의된다:
$$ \mathcal{L} = \mathcal{L}{vq} + \alpha \mathcal{L}{t_w} + \beta \mathcal{L}{t_p} + \gamma \mathcal{L}{t_s}$$
Experiments
본 연구에서 제안한 방법은 model-agnostic 특성을 가지므로 다양한 VQ 기반 아키텍처에 적용 가능하다. 저자들은 VQ-GAN과 CVQ를 backbone으로 사용하였으며, 공정한 비교를 위해 pre-trained language model을 활용하는 LG-VQ와 VQCT를 baseline으로 선정하였다.
Results.
실험 결과 backbone network 대비 효과성을 입증하였으며, LG-VQ 대비 우수한 성능을 보인 것으로 보아 다양한 세분화 수준에서 text semantic을 효과적으로 인코딩하여 robust하게 codebook이 학습되었음을 보여주었다.

Ablation Study.
alignment effective에 대한 실험 결과, 이 세 가지는 모두 필수적이며 이를 모두 도입하여 가장 뛰어난 성능을 보였다.

multi-granularity text encoding에 대한 실험 결과. 유의미한 성능 향상으로 보아 해당 방식이 핵심 의미 정보를 효과적으로 보존함을 나타낸다.

sampling-based alignment strategy에 대한 실험 결과 computation cost를 줄인 것을 확인하였다.

Visual Grounding 결과, TA-VQ가 더 정확한 예측을 달성함을 확인할 수 있다.

Visual Text Reasoning 결과, 아래 표와 figure와 같이 모든 작업에서 baseline 모델들보다 더 우수한 성능과 이미지와 의미가 일치하는 텍스트를 정확하게 생성하는 등 효과성을 입증하였다.

