AI/Deep Learning
2021. 11. 10.
[DL] Attention 파헤치기 - Seq2Seq부터 Transformer까지 (1)
현재 자연어처리 분야에서 가장 잘 알려진 BERT나 GPT 모두 트랜스포머를 기반으로 한 분류/생성 모델이기 때문에, 어텐션 메커니즘과 트랜스포머 block을 이해하는 과정은 매우 중요하다고 할 수 있다. 이를 위해 지난 포스트에서 다룬 순환신경망 계열의 셀(cell)들을 인코더와 디코더로 구조화한 Seq2Seq부터, 해당 모델의 단점을 개선한 트랜스포머까지의 전반적인 개념을 정리해보려 한다. ※ 참고 - BERT : Bidirectional Encoder Representations from Transformers - GPT : Generative Pre-trained Transformer 1. Sequence to sequence (시퀀스-투-시퀀스) Seq2Seq은 쉽게 말하면 시퀀스 형태의 입력값..