TF-IDF AI/MLOps 2022. 5. 4. [MLOps] Elasticsearch의 BM25 스코어 알고리즘 이해하기 쿼리 컨텍스트는 엘라스틱에서 지원하는 다양한 스코어 알고리즘을 사용할 수 있는데, 기본적으로 BM25 알고리즘을 이용해 relevance score를 계산한다. Relevance score는 쿼리와 도큐먼트의 유사도를 표현하는 값으로, 점수가 높을수록 찾고자 하는 도큐먼트에 가깝다는 사실을 의미한다. 쿼리를 요청하고 스코어가 어떤 식으로 계산되었는지 알아보기 위해 쿼리에 explain 옵션을 추가해보았다. GET kibana_sample_data_ecommerce/_search { "query": { "match": { "products.product_name": "Pants" } }, "explain": true } - 결과창 - { #길어서 줄임 # .... "hits" : { "total" : { .. AI/Deep Learning 2022. 3. 27. [DL] Topic modeling with BERTopic - 개요 및 알고리즘 LDA를 시작으로 문서에서 주제를 찾아내는 많은 technique들이 소개되어 왔다. 그중 State-of-art 토픽 모델링을 수행하는 BERTopic에 대해 소개해보려 한다. 논문은 없지만 개발자의 깃헙 페이지와 소스코드를 참고하면 이해에 도움이 된다. 본문은 깃헙 페이지에 소개되어있는 알고리즘 설명글을 토대로 작성되었다. ++ 수정: 2022.03.11 일자로 BERTopic 논문이 아카이브에 올라와있었다! https://arxiv.org/abs/2203.05794 1. Embed documents sentence-transformers를 이용해 문서 단위의 임베딩을 만든다. (궁금한점1: SBERT 논문을 보면 문장A와 B에 대해 평균 풀링 혹은 MAX 풀링으로 문장 단위의 임베딩을 만든다고 설명.. AI/Deep Learning 2022. 3. 11. [DL] 자연어 처리에서의 텍스트 표현 - 단어 임베딩(Word Embedding) Text Vectorization 어떻게 자연어를 컴퓨터에게 인식시킬 수 있을까? 컴퓨터는 모든 값을 읽을 때 0 또는 1, 즉 이진화된 값으로 받아들인다. 따라서 텍스트도 마찬가지로 수치형 텐서로 변환하는 과정이 필요한데, 자연어 처리를 위한 모델에 적용할 수 있게 언어적인 특성을 반영해서 수치화하는 것이 단어 표현(word representation) 분야이다. 다른 말로 단어 임베딩(word embedding) 또는 단어 벡터화(word vectorization)이라고 할 수 있다. 우리는 이미 [ML] 범주형 변수 처리 - Label Encoding, One-hot Encoding 포스트에서 단어를 하나의 벡터로 표현하는 방법을 공부했었다. 특히 원-핫 인코딩 방식은 단어를 표현하는 가장 기본적인.. 이전 1 다음