CvT: Introducing Convolutions to Vision Transformers
Deep Learning/Paper Summary

CvT: Introducing Convolutions to Vision Transformers

반응형

논문링크

한줄요약

- ViT의 linear projection에 컨볼루션 한숟갈, transformer block에 (depthwise) convolution 한숟갈

(a) 논문에서 제안하는 구조. 핵심적으로 초록색(Conv Token Embedding)과 파란색(Conv Transformer Block) 을 제안한다. (b) 파란색 conv transformer block의 상세 구조

 

Convolutional Token Embedding 방법 - 출처

 

Conv Transformer Block 안에 들어가는 Conv projection 방법
(위 그림의 초록색 Conv token embedding과 구분해야함. Token embedding되어있는 상태에서 Conv projection 하는것임)

(a)Linear projection을 대체하는 (b)Conv projection과 (c)Squeezed Conv projection. (c)를 사용함으로서 연산량 감소

Convolutional projection에 사용되는 컨볼루션은 일반 컨볼루션 말고 depth-wise seperable conv사용해서 연산량 줄였다고 함

반응형