ai

ai

[Multi-Modal]

(A Survey on Multimodal Large Language Models) https://arxiv.org/abs/2306.13549  Encoder 들의 feature 들을 실제 LLM 에서 사용가능한 토큰으로 만드는게 요즘의 핵심이다. 그렇게 된다면, llm 의 능력을 활용해서 text 혹은 generator 를 붙여서 img,audio ... 을 만들 수 있다.  modalities 에 따라서 이런 방식으로 처리해준다.  ( Data set ) 1차로 pre-training 할때는 보통 Q-former 을 학습시킨다. ( LLM 에 들어가는 OUTPUT 들이 이해를 할 수 있게끔 )   이후에 모델에는 어떤 것들이 있는가?NExT-GPT , ANYGPT ,  ETC..  !!! +) Dat..

ai

[Vision Transformer] implement(구현) + ViT 개선방안 논문 정리

(10.2 ~ 10.11) - colab 에 작성한 코드 옮겨둘 것. cf.https://github.com/FrancescoSaverioZuppichini/ViThttps://hongl.tistory.com/232https://www.youtube.com/watch?v=TrdevFK_am4https://csm-kr.tistory.com/54https://github.com/huggingface/pytorch-image-models/blob/main/timm/models/vision_transformer.pyhttps://velog.io/@sjinu/%EB%85%BC%EB%AC%B8%EB%A6%AC%EB%B7%B0AN-IMAGE-IS-WORTH-16X16-WORDS-TRANSFORMERS-FOR-IMAG..

ai

Transformer 구현

모델은 Encoder / Decoder 크게 두가지 부분으로 나뉘어진다.그중에서도 Encoder 부분을 먼저 구현하고 Decoder 부분을 구현하는 걸로 하자. 1.  Encoder Decoder 는 크게 Multi-Head-Attention + Position wise Feed-Forward 2가지로 구성되어 있다. 추가적으로, residual 한 부분와 LayerNorm 하는 부분은 forward 에서 구현해 줄 것인데, 일단 Multi-Head-attention 을 먼저 구현하고 나서 차원에 맞춰 구현해보기로 한다.    1-1) Scaled Dot-ProductMulti-Head-Attention 을 구현하기 이전에 Scaled dot product 를 먼저 구현해야 한다.Multi-head at..

Kim_sang_hyeob
'ai' 카테고리의 글 목록