반응형
한줄요약
- ViT의 linear projection에 컨볼루션 한숟갈, transformer block에 (depthwise) convolution 한숟갈
Convolutional Token Embedding 방법 - 출처
Conv Transformer Block 안에 들어가는 Conv projection 방법
(위 그림의 초록색 Conv token embedding과 구분해야함. Token embedding되어있는 상태에서 Conv projection 하는것임)
Convolutional projection에 사용되는 컨볼루션은 일반 컨볼루션 말고 depth-wise seperable conv사용해서 연산량 줄였다고 함
반응형