AI/Deep Learning
2022. 3. 8.
[DL] Attention 파헤치기 - Seq2Seq부터 Transformer까지 (2)
저번 포스트에서 Seq2Seq이란 무엇인지, 그리고 어텐션의 개념이 왜 등장하게 되었는지를 소개하고 어텐션 값을 계산하는 방법을 간단히 살펴보았다. 결국 어텐션이란 Query와 Key 간의 유사도를 측정하는 메커니즘라고 말할 수 있는데(필자는 이렇게 이해했다... 아닐수도ㅠ), 자연어처리 분야에서 어텐션을 활용한 대표적인 모델로 트랜스포머(Transformer)를 꼽을 수 있다. 트랜스포머는 Seq2Seq의 인코더-디코더 구조를 가지고 있으며, 어텐션을 메인 아이디어로 고안된 모델이다. 2017년 구글이 발표한 "Attention Is All You Need" 논문으로 처음 소개되었다. 전체적인 구조 저번 포스트에서도 언급했지만, 인코더 - Multi-head Self-Attention (셀프 어텐션:계..