
Paper
ViViT: A Video Vision Transformer 리뷰
요약본을 작성하는 것 보다 , 다시볼때 최대한 많은 정보를 읽기 위해서 조금 디테일한 부분까지 계속해서 다 해석하고 재조립해서 작성하고 있는데, 본 논문은 내용이 너무 길어 읽기 조금 피곤할 수 있습니다... Summary NLP 뿐만 아니라 Vision 분야에서도 사용되었던 Transformer 를 video에 적용시키기 위해서 방법을 제시한다 Abstract video classification 을 위해서 pure-transformer model 인 Video vision Transformer 를 본 논문에서 제시한다. 본 논문의 모델은 spatio-temporal token 을 input video로 extract 한 다음 transformer layers 를 통해 encoding 한다. 비디오의 ..