DataSet1 [Paper review] HueManity: Probing Fine-Grained Visual Perception in MLLMs Pre-printArxivGithub Google PaperRynaa Grover, Jayant Sravan Tamarapalli, Sahiti Yerramilli, Nilay PandeIntroduction Multimodal Large Language Models(MLLMs)은 시각 정보와 텍스트 정보를 통합하는 능력을 바탕으로, 이미지 라벨링, 세부적인 이미지 설명, 생성 등 다양한 작업에서 두드러진 성과를 보여왔다. 이러한 성과의 핵심은 방대한 web-scale의 image-text dataset에서의 pre-training에 있으며, 이를 통해 시각적 특징과 언어 사이의 high-level semantic link을 포착하는 강력한 representation을 학습할 수 있었다. 그러나 저자들은.. 2025. 9. 30. 이전 1 다음