[발표자료] Aligning Multimodal Representations through an Information Bottleneck
결국 도메인 gap 을 줄이는데 ( 정확히는 align 할때 )
문제점을 조금 더 파고드는게 중요하다는 생각이 들기는한다
1) 도메인 gap 을 줄이는 연구가 과연 아직 유효한가 ?
-> 그렇긴하나 예전보다 더 세분화해서 봐야할 것 같다.
- global alignment는 좋아 보여도 local pairwise alignment는 깨질 수 있음
- modality-shared semantics와 modality-specific residue가 뒤엉켜 있을 수 있음
- retrieval에는 좋은데 generation/grounding/transfer에는 안 좋을 수 있음
- two-modal에서는 괜찮은데 multi-modal로 가면 conflict가 커질 수 있음
- 같은 contrastive model이어도 uniformity, isotropy, spectral structure, effective rank가 다를 수 있음
대략 이런문제는 남아있다고 한다 (정확히 리서치는 안해봄 )
2) CLIP 류 contrastive learnig 으로 뭘 더 해볼 수 있을까?
(a) contrastive objective의 구조적 한계 분석
- alignment vs uniformity trade-off
- false negatives / semantic neighbors 문제
- information asymmetry (image가 text보다 정보량이 많음)
- dimension collapse / spectral collapse
- cone effect, anisotropy, rank deficiency
- pairwise alignment와 global distribution alignment의 불일치
(b) “contrastive만으로 충분한가?”를 묻는 연구
최근 정리성 글들도 멀티모달 표현학습을 contrastive 하나로만 보지 않고, generative objective, reconstruction, masking, distillation, modular disentanglement와 같이 보려는 흐름을 정리합니다. 예를 들어 survey 성격의 recent overview는 ImageBind, mPLUG-2, VALOR-L, InternVideo-L 같은 다양한 프레임을 함께 다루며, 멀티모달 representation learning이 이미 contrastive-only 패러다임을 넘어서고 있다는 그림을 보여줍니다.
추후 읽어볼만한 논문
Towards Uniformity and Alignment for Multimodal Representation Learning
Principled Multimodal Representation Learning
->
헤드라인 이름
슬라이드에 정보가 너무 많다.
ppt 를 보는게 의미가 없을 정도로 정보량이 많다.
용어정리 ( align -> 이 뭔지도 설명을 했으면 좋겠다 )