본문 바로가기

heeee__ya

Notice

Contact Me 🙌

Visits

Today

Yesterday

Popular Posts

Calendar

Tags

더보기

Archives

Transformers

[논문리뷰] Swin Transformer - Hierarchical Vision Transformer using Shifted Windows

paper review 2022. 4. 13. [논문리뷰] Swin Transformer - Hierarchical Vision Transformer using Shifted Windows ViT 논문 리뷰 포스트에 이어 트랜스포머를 이용해 image recognition task를 수행하는 딥러닝 모델들에 대해 계속 다뤄보려한다. 이번 주제는 Swin Transformer로, 2021년 3월 마이크로소프트(Microsoft Research Asia)에서 발표하였다. 논문은 이쪽에서 확인할 수 있다. 1. ViT to Swin 논문의 introduction 부분에서 저자는 기존의 비전 분야에 대한 Transformer based approach가 어떤 문제점을 가지고 있는지 언급한다. 골자는 'computational complexity on high-resolution images'로 축약할 수 있는데, 이미지의 해상도, 그러니까 픽셀이 늘어나면 늘어날수록 모든 patch의 조합에 대해 ..

[논문리뷰] ViT(Vision Transformer) - Transformers for Image Recognition at Scale

paper review 2022. 4. 12. [논문리뷰] ViT(Vision Transformer) - Transformers for Image Recognition at Scale 이미지 분류, 나아가 컴퓨터 비전 분야에 있어 트랜스포머 아키텍처의 사용은 매우 제한적이었다. 자연어 처리 분야에서는 트랜스포머를 기반으로 등장한 BERT나 GPT 모델들이 game-changer 역할을 하고 있지만, 비전에서는 attention이 합성곱 신경망(convolutional network)과 함께 적용되거나 전체 구조를 유지하면서 합성곱 신경망의 특정 component를 대체하는 부분적인 적용에 그쳤다. ViT는 비전 task에 있어서 CNN에 대한 의존은 더 이상 필요하지 않으며, 이미지 임베딩 벡터에 직접 적용되는 attention은 그 자체만으로도 이미지 분류 작업을 잘 수행할 수 있다고 보여준다. ViT는 이미지 patch별 임베딩 벡터를 추출한 이후 트랜스포머 모델을 통과시켜 최종 ..

이전 1 다음

티스토리툴바