
전체 글

[paper review] BLIP2 : Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
문제점 : 최근 많은 vision-language model 들은 lagre scale data set으로 인해서 높은 계산 비용이 발생하게 된다. vision-language research 는 vision 과 language 의 교차점 사이에 있으므로 자연스럽게 vision-language 모델은 vision 과 lanuge 의 각 unimodal 에서 만들 수 있을 것으로 추측된다. 따라서 본 논문에서는 generic 하고 compute-efficient VLP method 를 bootstrapping 함으로써 vlp model 을 학습시킨다. 비전모델은 높은 퀄리티의 비전 능력을 가지고 있고, LLM 역시 마찬가지로 좋은 성능을 가지고 있다. computation cost 와 catastroph..

[paper review] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
Momentum encoder -> moco 논문 읽기 논문에서 제기하는 문제점1. encoder base 모델 (ex : CLIP)이해 기반 작업에 강점이 있음 ( 이미지-텍스트 검색) but, 텍스트 생성 작업에서 비효율적임.입력 데이터를 임베딩한 후에 generation 과정에서 추가의 디코더를 필요로함. 2. encoder-decoder base 모델생성 기반 작업에 강점 ( 이미지 캡션 생성 ) but, 이미지와 텍스트 간의 bidirectional matching 수행하기 적합하지 않음.이미지와 텍스트를 직접 비교하는 대신, 텍스트를 이미지 기반으로 디코딩 과정을 거치기 때문에 검색에 용이하지 않음. 3. dataset 기존 데이터 셋에 noise 가 너무 많이 껴있음. 해결책BLIP 의 모델..