본문 바로가기

전체 글21

[Paper review] MotionSight: Boosting Fine-Grained MotionUnderstanding in Multimodal LLMs ICLR 2026ArXivGithubYipeng Du, Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Xiang Li, Jian Yang, Zhenheng Yang, Ying TaiIntroduction 고품질의 video-text 데이터셋과 대규모 모델 파라미터의 이점을 바탕으로, MLLM은 video understanding task에서 인상적인 성능을 보여왔다. Static image와 달리 video는 본질적으로 temporal dimension을 가지며, 이로 인해 다양한 motion이 생성된다. 이러한 변화는 객체의 움직임이나 카메라 동작으로부터 비롯되며, Figure 1(a)와 같이 비디오에 생동감과 서사성을 부여하는 핵심 요소로 작용한다. 그러나 기존의 .. 2026. 4. 9.
[Paper review] Global Compression Commander: Plug-and-Play Inference Acceleration for High-Resolution Large Vision-Language Models AAAI 2026ArXivGithubXuyang Liu, Ziming Wang, Junjie Chen, Yuhang Han, Yingyao Wang, Jiale Yuan, Jun Song, Linfeng Zhang, Siteng Huang, Honggang Chen Introduction LVLMs(Large vision-language models)은 large language models(LLMs)과 visual encoders를 결합한 모델로서 최근 눈에 띄는 발전을 이루었다. 특히 high-resolution 이미지 이해를 위해 위의 LLaVA-Next의 Anyres와 같은 아키텍처를 제안하였다. 이는 fine-grained details을 포착하면서도 효율적인 visual encoding을 가능.. 2025. 11. 25.
[Paper review] HueManity: Probing Fine-Grained Visual Perception in MLLMs Pre-printArxivGithub Google PaperRynaa Grover, Jayant Sravan Tamarapalli, Sahiti Yerramilli, Nilay PandeIntroduction Multimodal Large Language Models(MLLMs)은 시각 정보와 텍스트 정보를 통합하는 능력을 바탕으로, 이미지 라벨링, 세부적인 이미지 설명, 생성 등 다양한 작업에서 두드러진 성과를 보여왔다. 이러한 성과의 핵심은 방대한 web-scale의 image-text dataset에서의 pre-training에 있으며, 이를 통해 시각적 특징과 언어 사이의 high-level semantic link을 포착하는 강력한 representation을 학습할 수 있었다. 그러나 저자들은.. 2025. 9. 30.
[Paper review] Zoom-Refine: Boosting High-Resolution Multimodal Understanding via Localized Zoom and Self-Refinement ArXiv 2025GithubXuan Yu, Dayan Guan, Yanfeng GuIntroduction Multimodal Large Language Models(MLLMs)은 텍스트와 시각 정보를 결합해 다양한 분야에서 잠재력을 보여주지만, 고해상도(High-resolution, HR) 이미지를 효과적으로 처리하지 못하는 한계가 존재한다. real-world의 시각 데이터는 세부 정보가 풍부하지만, 기존 MLLMs은 고정된 vision encoder에 맞추기 위해 고해상도 이미지를 downsampling 또는 cropping 하여 처리하며, 이 과정에서 information loss가 불가피하게 발생한다. 저자들은 이러한 한계를 해결하기 위해 인간의 고해상도 시각 처리 방식에 주목한다. 인간은 장면.. 2025. 9. 29.
[Paper review] SALAD: Skeleton-aware Latent Diffusion for Text-driven Motion Generation and Editing CVPR 2025ArXivGithubSeokhyeon Hong, Chaelin Kim, Serin Yoon, Junghyun Nam, Sihun Cha, Junyong NoIntroduction캐릭터 애니메이션은 다양한 컴퓨터 그래픽스 및 비전 응용 분야에서 핵심적인 역할을 한다. 그러나 keyframing이나 motion capture와 같은 전통적인 방식은 많은 수작업이 필요해 비효율적이라는 단점이 존재한다. 최근에는 diffusion 모델을 활용한 text-to-motion(T2M) 기법이 등장하여, 직관적이고 효율적인 애니메이션 워크플로우를 가능하게 하고 있다. 하지만 기존 diffusion 기반 모델은 ①포즈를 하나의 벡터로 표현하고 주로 temporal 관계에 집중하여, skeletal joi.. 2025. 9. 24.
[Paper review] Beyond Intermediate States: Explaining Visual Redundancy through Language Arxiv GithubDingchen Yang, Bowen Cao, Anran Zhang, Weibo Gu, Winston Hu, Guang Chen IntroductionMulti-modal Large Language Models(MLLMs)은 다양한 vision-language task에서 우수한 성능을 보이고 있다. 이는 고해상도 이미지 및 비디오를 처리하기 위해 수천 개의 시각 토큰을 통합하는 접근 방식이다. 그러나 이러한 방식은 여러 가지 한계를 갖는다. 첫째, 시각 토큰이 텍스트 토큰에 필요한 콘텍스트 윈도를 잠식하여 MLLMs의 텍스트 처리 능력을 저해할 수 있다. 둘째, self-attention 메커니즘의 quadratic complexity는 계산 비용을 크게 증가시킨다. 따라서 red.. 2025. 9. 13.