AI/Deep Learning
2022. 3. 11.
[DL] 자연어 처리에서의 텍스트 표현 - 단어 임베딩(Word Embedding)
Text Vectorization 어떻게 자연어를 컴퓨터에게 인식시킬 수 있을까? 컴퓨터는 모든 값을 읽을 때 0 또는 1, 즉 이진화된 값으로 받아들인다. 따라서 텍스트도 마찬가지로 수치형 텐서로 변환하는 과정이 필요한데, 자연어 처리를 위한 모델에 적용할 수 있게 언어적인 특성을 반영해서 수치화하는 것이 단어 표현(word representation) 분야이다. 다른 말로 단어 임베딩(word embedding) 또는 단어 벡터화(word vectorization)이라고 할 수 있다. 우리는 이미 [ML] 범주형 변수 처리 - Label Encoding, One-hot Encoding 포스트에서 단어를 하나의 벡터로 표현하는 방법을 공부했었다. 특히 원-핫 인코딩 방식은 단어를 표현하는 가장 기본적인..