[22/1/10]
tell and show ppt.pptx
3.45MB
tell and show 발표.docx
0.03MB
[24/12/15] 업데이트 :
1년만에 새롭게 아 알고보니 2년이다.
2년만에 새롭게 업데이트 한 느낌은 뭐랄까 생각이 잘 나는 것 같으면서도 안나기도하고 정확한 모델 구조같은건 생각나지 않는다. 그래도 읽어보고 다시 느낀점이 있어 적어보려고 한다.
이때도 vision vector 와 sentence vector 들을 alignment 하는게 핵심이었구나.
여기서는 img 를 google net 을 통해서 임베딩된 벡터를 구하고
이를 이용해서 LSTM 레이어를 한번 지날때마다 벡터를 하나씩 추출한다 ( Transformer 에서 decoder 에서 문장을 생성할때 처럼) 이후 그 값들의 평균을 loss 로 사용해서 training 해준다. ( img model 은 freeze )
아는만큼 보인다고 처음 봤을때는 잘 이해를 못하던 것들이 이해가 더 잘 되고 이쯤이면 알겠다 싶은 느낌이 든다.
결국 captioning 에서 가장 중요하다고 생각되는 문제는 역시 img 에서 추출한 vector 와 sentence vector 를
얼마나 더 잘 alignment 하냐에 달린 것 같다.
'Paper' 카테고리의 다른 글
| Clip-NeRF (0) | 2023.02.05 |
|---|---|
| NeRF (3) | 2023.02.05 |
| [피드백 o] bottom up and top down / zerocap : image to text (1) | 2023.01.31 |
| SAN/LMXERT/UNITER (0) | 2023.01.16 |
| [피드백 o ] FixMatch (+ 소은 누나 발표 ) (0) | 2023.01.10 |