CvT: Introducing Convolutions to Vision Transformers

한줄요약

- ViT의 linear projection에 컨볼루션 한숟갈, transformer block에 (depthwise) convolution 한숟갈

Convolutional Token Embedding 방법 - 출처

Conv Transformer Block 안에 들어가는 Conv projection 방법
(위 그림의 초록색 Conv token embedding과 구분해야함. Token embedding되어있는 상태에서 Conv projection 하는것임)

Convolutional projection에 사용되는 컨볼루션은 일반 컨볼루션 말고 depth-wise seperable conv사용해서 연산량 줄였다고 함

티스토리툴바