Paper

[paper review] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

학습 데이터: 이미지와 텍스트의 쌍을 입력으로 사용. Momentum Encoder는 이 데이터를 기반으로 임베딩을 생성.
Loss 계산: Base Encoder의 출력과 Momentum Encoder의 출력을 비교하며 Contrastive Loss를 계산. Momentum Encoder의 출력을 **"기준"**으로 삼아, Base Encoder가 더욱 좋은 피처를 학습하도록 유도.
이점: Contrastive Learning의 성능을 크게 향상. 데이터 노이즈의 영향을 최소화하여 학습 과정의 안정성 증가.

2025. 1. 13. 18:48

VGGT 발표자료 (0)	2025.08.16
MMaDA 논문 발표자료 (2)	2025.08.06
[paper review] Meshed-Memory Transformer (3)	2024.12.24
MViTv2: Improved Multiscale Vision Transformers for Classification and Detection 리뷰 (2)	2023.09.26
ViViT: A Video Vision Transformer 리뷰 (0)	2023.09.08

1. Language Modeling Loss (LM)란?