(A Survey on Multimodal Large Language Models) https://arxiv.org/abs/2306.13549 Encoder 들의 feature 들을 실제 LLM 에서 사용가능한 토큰으로 만드는게 요즘의 핵심이다. 그렇게 된다면, llm 의 능력을 활용해서 text 혹은 generator 를 붙여서 img,audio ... 을 만들 수 있다. modalities 에 따라서 이런 방식으로 처리해준다. ( Data set ) 1차로 pre-training 할때는 보통 Q-former 을 학습시킨다. ( LLM 에 들어가는 OUTPUT 들이 이해를 할 수 있게끔 ) 이후에 모델에는 어떤 것들이 있는가?NExT-GPT , ANYGPT , ETC.. !!! +) Dat..
(10.2 ~ 10.11) - colab 에 작성한 코드 옮겨둘 것. cf.https://github.com/FrancescoSaverioZuppichini/ViThttps://hongl.tistory.com/232https://www.youtube.com/watch?v=TrdevFK_am4https://csm-kr.tistory.com/54https://github.com/huggingface/pytorch-image-models/blob/main/timm/models/vision_transformer.pyhttps://velog.io/@sjinu/%EB%85%BC%EB%AC%B8%EB%A6%AC%EB%B7%B0AN-IMAGE-IS-WORTH-16X16-WORDS-TRANSFORMERS-FOR-IMAG..
모델은 Encoder / Decoder 크게 두가지 부분으로 나뉘어진다.그중에서도 Encoder 부분을 먼저 구현하고 Decoder 부분을 구현하는 걸로 하자. 1. Encoder Decoder 는 크게 Multi-Head-Attention + Position wise Feed-Forward 2가지로 구성되어 있다. 추가적으로, residual 한 부분와 LayerNorm 하는 부분은 forward 에서 구현해 줄 것인데, 일단 Multi-Head-attention 을 먼저 구현하고 나서 차원에 맞춰 구현해보기로 한다. 1-1) Scaled Dot-ProductMulti-Head-Attention 을 구현하기 이전에 Scaled dot product 를 먼저 구현해야 한다.Multi-head at..