본문 바로가기

diffusion3

[Paper review] AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion CVPR 2025https://arxiv.org/abs/2503.07418Mingzhen Sun, Weining Wang, Gen Li, Jiawei Liu, Jiahui Sun, Wanquan Feng, Shanshan Lao, SiYu Zhou, Qian He, Jing LiuIntroduction비디오 생성(Video generation)은 시각적으로 현실적이고 시간적으로 일관성 있는 프레임을 생성하는 것을 목표로 한다. 현재의 비디오 생성 방법은 훈련 시 noise가 적용되는 방식에 따라 동기식(synchronous) 모델과 비동기식(asynchronous) 모델의 두 가지 범주로 나눌 수 있다. 동기식 비디오 생성 모델(synchronous video generation model)은 훈련 .. 2025. 8. 14.
[Paper review] REWIND: Real-Time Egocentric Whole-Body Motion Diffusion with Exemplar-Based Identity Conditioning CVPR 2025https://arxiv.org/abs/2504.04956Jihyun Lee, Weipeng Xu, Alexander Richard, Shih-En Wei, Shunsuke Saito, Shaojie Bai, Te-Li Wang, Minhyuk Sung, Tae-Kyun Kim, Jason SaragihMetaIntrodution Egocentric human motion estimation은 게임이나 AR/VR과 같은 응용 프로그램에서 현실감 있는 경험을 제공하는 데 있어 필수적인 기술이다. 예컨대 가상 환경 내에서 인간 간 소통이 이뤄지는 상황에서는, 전신(E.g. 몸, 손)의 동작이 얼마나 정확하게 추정되는가에 따라 현실감의 수준이 달라진다. 특히 위의 그림(b)와 같이 손가락과 미.. 2025. 8. 11.
[Paper review] Compressed and Smooth Latent Space for TextDiffusion Modeling Preprint. Under reviewhttps://arxiv.org/abs/2506.21170Viacheslav Meshchaninov, Egor Chimbulatov, Alexander Shabalin, Aleksandr Abramov, Dmitry VetrovIntroductionAutoregressive(AR) 언어 모델은 텍스트 생성 분야에서 지배적으로 자리매김하고 있다. 이는 다음 토큰 예측 과제로서 teacher forcing 방식을 사용하여 최적화하는데, 이러한 순차적 분해 방식은 여러 구조적 bottlenecks을 야기한다.디코딩은 본질적으로 순차적인 방식이기 때문에, 생성할 시퀀스의 길이가 길어질수록 생성 시간도 선형적으로 증가한다.exposure bias 로 인해 초기의 작은 오류가.. 2025. 7. 17.