본문 바로가기

codebook2

[Paper review] Towards Improved Text-Aligned Codebook Learning: Multi-Hierarchical Codebook-Text Alignment with Long Text CVPR 2025https://arxiv.org/abs/2503.01261Guotao Liang, Baoquan Zhang, Zhiyuan Wen, Junteng Zhao, Yunming Ye, Kola Ye, Yao HeIntroduction최근 vector quantization(VQ) 기반 이미지 모델링은 이미지 생성 분야에서 각광받고 있다. VQ 기반 이미지 모델링의 핵심은 encoder-quantizer-decoder 프레임워크 기반 학습을 통해 풍부한 이미지 특성을 포착한 후 코드북을 통해 autoregression 혹은 discrete diffusion 방식을 활용해 고품질의 이미지를 생성할 수 있다. VQ 방식에서의 핵심인 코드북을 보다 robust 하게 학습시키기 위해 adversaria.. 2025. 7. 19.

[Paper review] Codebook Transfer with Part-of-Speech for Vector-Quantized Image Modeling CVPR 2024https://arxiv.org/abs/2403.10071Baoquan Zhang, Huaibin Wang, Luo Chuyao, Xutao Li, Liang Guotao, Yunming Ye, Xiaochen Qi, Yao He Introduction멀티모달 학습의 발전과 함께, 최근에는 모든 modality를 transformer로 통합하려는 시도가 점점 더 많은 관심을 받고 있다. transformer는 본래 discrete token seqence를 모델링하기 위해 제안된 구조로, 이미지와 같은 continuous에 적용하는 것은 매우 어렵다. 이러한 문제를 해결하기 위해 Vertor-Quantized Image Modeling(VQIM)이 제안되었으며, 이는 이미지를 텍스트처럼 .. 2025. 7. 10.

이전 1 다음

티스토리툴바