[Vision Transformer] implement(구현) + ViT 개선방안 논문 정리

Learning Rate Warmup: 학습 초기 단계에서 learning rate(학습률)를 천천히 증가시키는 방법입니다. 초기에는 작은 학습률을 사용하여 모델이 안정적으로 학습을 시작할 수 있게 하고, 이후 점차 학습률을 증가시킵니다. 이렇게 하면 초기의 불안정한 학습을 방지할 수 있습니다.
Learning Rate Decay: 학습이 진행됨에 따라 learning rate를 점차 줄여가는 방법입니다. 학습 초기에 큰 학습률을 사용하여 빠르게 최적점을 향해 가다가, 학습 후반부에는 작은 학습률을 사용하여 미세한 조정을 할 수 있게 합니다. 이렇게 하면 학습 후반부에 모델이 보다 안정적으로 수렴할 수 있습니다.

2024. 10. 2. 20:44

[Multi-Modal] (3)	2024.11.05
Transformer 구현 (0)	2024.08.11
[논문]Chain-of-Thought Prompt Distillation for Multimodal Named Entity Recognition and Multimodal Relation Extraction (0)	2024.05.04

ViT 개선방안