[Paper review] Codebook Transfer with Part-of-Speech for Vector-Quantized Image Modeling
CVPR 2024https://arxiv.org/abs/2403.10071Baoquan Zhang, Huaibin Wang, Luo Chuyao, Xutao Li, Liang Guotao, Yunming Ye, Xiaochen Qi, Yao He Introduction멀티모달 학습의 발전과 함께, 최근에는 모든 modality를 transformer로 통합하려는 시도가 점점 더 많은 관심을 받고 있다. transformer는 본래 discrete token seqence를 모델링하기 위해 제안된 구조로, 이미지와 같은 continuous에 적용하는 것은 매우 어렵다. 이러한 문제를 해결하기 위해 Vertor-Quantized Image Modeling(VQIM)이 제안되었으며, 이는 이미지를 텍스트처럼 ..
2025. 7. 10.