Deep Learning/Architecture design
CNN Networks using Attention
https://www.youtube.com/watch?v=Dvi5_YC8Yts&t=1717s 도움이 되는 다른 포스트 https://nuguziii.github.io/survey/S-003/ Self-Attention and Gating Mechanisms in Computer Vision Self-Attention and Gating Mechanisms 에 대한 개념 및 관련 논문들을 정리한 글입니다. nuguziii.github.io
Batch Norm, Layer Norm, Instance Norm, Group Norm
다양한 Normalization 기법들이 있어서 정리하고자 포스팅한다. Network layer의 output을 normalize 하는 경우 트레이닝 타임이 크게 감소하고, 학습이 잘 된다. 잘 되는 이유에는 초기에는 Internal Covariate Shift를 제거한다는 쪽으로 설명이 되다가, 사실이 아님이 수학적으로 증명되었고 Loss function의 smoothness를 증가시키는 것이 주된 이유로 설명되고 있다. Batch Norm이 표준으로 사용되고 있으나, Multi-GPU training 등의 적용과 모델 사이즈가 커짐으로 인해 GPU당 할당되는 Mini-batch의 수가 줄어드는 경우, mini-batch와 original data 사이의 괴리가 커져 모델이 효율적으로 학습되기 어려운 ..