AI/Deep Learning
2022. 3. 27.
[DL] Topic modeling with BERTopic - 개요 및 알고리즘
LDA를 시작으로 문서에서 주제를 찾아내는 많은 technique들이 소개되어 왔다. 그중 State-of-art 토픽 모델링을 수행하는 BERTopic에 대해 소개해보려 한다. 논문은 없지만 개발자의 깃헙 페이지와 소스코드를 참고하면 이해에 도움이 된다. 본문은 깃헙 페이지에 소개되어있는 알고리즘 설명글을 토대로 작성되었다. ++ 수정: 2022.03.11 일자로 BERTopic 논문이 아카이브에 올라와있었다! https://arxiv.org/abs/2203.05794 1. Embed documents sentence-transformers를 이용해 문서 단위의 임베딩을 만든다. (궁금한점1: SBERT 논문을 보면 문장A와 B에 대해 평균 풀링 혹은 MAX 풀링으로 문장 단위의 임베딩을 만든다고 설명..