Deep Learning/Paper Summary

    Graphics2RAW: Mapping Computer Graphics Images to Sensor RAW Images

    논문링크한줄요약그래픽 sRGB 이미지를 Device-dependent Sensor RAW RGB로 되돌리는 방법을 제안해보자!세줄요약그래픽 이미지는 노이즈가 없으므로 일반적인 reverse ISP 모델링보다 간단함. 몇개의 inverse Matrix만 곱해주면됨타겟 디바이스의 illumination 분포를 2D multivariate gaussian으로 모델링하고 샘플링해서 inverse WB 할때와 CST matrix 구할때 사용함이렇게 만들어진 RAW 이미지는 Photography의 난관인 데이터 샘플 취득의 어려움을 해결할 수 있으며, 다른 RAW 생성 방법 대비 제안 방법론으로 만들어진 synthetic RAW를 사용하면 Denoising/Illumination estimation/Neural I..

    CvT: Introducing Convolutions to Vision Transformers

    논문링크한줄요약- ViT의 linear projection에 컨볼루션 한숟갈, transformer block에 (depthwise) convolution 한숟갈 Convolutional Token Embedding 방법 - 출처 Conv Transformer Block 안에 들어가는 Conv projection 방법(위 그림의 초록색 Conv token embedding과 구분해야함. Token embedding되어있는 상태에서 Conv projection 하는것임)Convolutional projection에 사용되는 컨볼루션은 일반 컨볼루션 말고 depth-wise seperable conv사용해서 연산량 줄였다고 함

    Uformer: A General U-Shaped Transformer for Image Restoration

    논문링크한줄요약UNet 사이사이에 Attention module 넣어서 성능 올리고 계산량 줄인 아키텍쳐 논문3줄요약Non-overlapping window based attention module 도입하고attention block 마지막에서 feed-forward layer를 image restoration task의 특성을 고려해 2D reshape-conv-flatten 연산을 추가함learnable multi-scale restoration modulator 라는걸 추가했는데 단순히 각 레이어에 adding 되는 텐서임 근데 성능향상이 있다고 함

    Variational AutoEncoder (VAE)

    https://youtu.be/rNh2CrTFpm4 한 5번정도 본 유튜브 영상... 정리가 매우 잘되어있음 간단 요약정리 AE는 이미지 압축을 위해 입력과 출력이 같도록 훈련된 모델, 훈련 이후 인코더 부분을 사용하기 위해 설계됨 (데이터 압축) VAE는 이미지 생성에 있어서 latent vector z가 제한된 매니폴드(prior distribution) 상에 존재하도록 제한하기 위해 제안됨 VAE 학습에서 latent vector z의 이상적인 true posterior distribution이 존재하고, 그 distribution을 근사할 수 있도록 Approximation class가 존재하게 되며 q(z|x), 그렇게 샘플링된 z를 사용하여 디코더를 태웠을 때 x가 나올 확률 p(x|z), 그..

    Convolutional Color Constancy

    [PDF] TL;DR; pixel = reflectance * illumination 을 따르는 이미지 모델 하에서, RGB space 의 WB operation은 log chromaticity space에서 히스토그램의 평행이동과 동일하다 이미지로부터 log chromaticity histogram을 생성한 뒤, Filter Convolution을 통해 조명값을 추정한다 Filter Convolution 결과는 이미지와 동일한 해상도를 가지며, 각 위치의 log chrominance가 GT 조명벡터일 Score를 의미한다 Filter는 트레이닝 데이터로부터 학습되며, 이러한 방법론은 Discriminative 방법론이다 필터를 학습할 때 사용되는 loss function은 컨볼루션 결과에 Softmax..

    StyleGAN

    논문 원제 : A Style-Based Generator Architecture for Generative Adversarial Networks [PDF] [Youtube] [Lunit blog]

    Temporal Segment Network (TSN)

    간단요약 : 전체 비디오를 N등분, 그 N등분 내에서 랜덤한 스니펫(클립) 샘플링 -> 그 스니펫들을 Spatial&Temporal 네트워크 두개에 통과시킨 후 모든 스니펫 결과들을 합쳐서 결과를 내는 모델 1. Introduction 이 논문에서 제시하는 기존의 ConvNet이 즉시 비디오레벨의 action recognition에 적용될 수 없는 이유는 두가지이다. 액션 비디오에서는 long-range temporal structure이 중요하다. (동작 전체의 긴 맥락을 이해하려면 매우많은 프레임을 다 보고 이해해야 함) 하지만 기존의 컨볼루션 필터와 그를 활용한 네트워크들은appearances 와 short-term motions 에만 집중하기 때문에 이런 부분에서 기대에 미치지 못하는 성능을낼 수..

    Generative Adversarial Nets (2)

    Generative Adversarial Nets (2) paper download 이전 글 보러가기 - Generative Adversarial Nets (1) Generative Adversarial Nets (1) Generative Adversarial Nets (1) paper download 오늘은 2014년에 Ian Goodfellow가 발표한 논문인 Generative Adversarial Network(이하 GAN)에 대해서 리뷰해보려 합니다. 기존의 생성모델들에 비해 월등한 성.. dongsarchive.tistory.com