티스토리 뷰
이 글은 RaRe-Technologies doc2vec tutorial을 바탕으로 하고 있습니다.
https://rare-technologies.com/doc2vec-tutorial/
https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-IMDB.ipynb
다음 사이트를 참고하여 코드를 따라가면 doc2vec의 동작을 이해하는 데 큰 도움이 될 것이라 생각합니다.
INTRODUCTION
Text classification, Text clustering과 같은 분야에서 주로 사용되는 머신 러닝 알고리즘에는 logistic regression과 K-means 등이 있습니다.
간단한 방법에도 불구하고 꽤(?) 높은 정확도를 보여 많이 사용되어진 방법으로 알고있습니다.
이러한 알고리즘을 사용하기 위해서는 모델을 만드는 사용자가 잘 처리된 fixed-length input을 만들어주어야 합니다. (이 때문에 사실 machine learning이 아니라 사용자가 다 공부해서 넣어준 것을 모델은 빠르게 처리를 해주는 것 뿐이라는 말이 나온것이겠죠?)
fixed-length vector를 사용하여 text를 표현하는 일반적인 방법으로는 Bag-of-Words와 Bag-of-n-gram이 있습니다.
Bag-of-Words(BOW) 알고리즘 동작 방식은 아래 블로그에서 정말 잘 설명해주셔서 넘어가도록 하겠습니다. 꼭 한번씩 읽어보시길 추천합니다!
http://darkpgmr.tistory.com/125