티스토리 뷰

이 글은  RaRe-Technologies doc2vec tutorial을 바탕으로 하고 있습니다.


https://rare-technologies.com/doc2vec-tutorial/

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-IMDB.ipynb


다음 사이트를 참고하여 코드를 따라가면 doc2vec의 동작을 이해하는 데 큰 도움이 될 것이라 생각합니다.



INTRODUCTION

 Text classification, Text clustering과 같은 분야에서 주로 사용되는 머신 러닝 알고리즘에는 logistic regression과 K-means 등이 있습니다.

간단한 방법에도 불구하고 꽤(?) 높은 정확도를 보여 많이 사용되어진 방법으로 알고있습니다. 

이러한 알고리즘을 사용하기 위해서는 모델을 만드는 사용자가 잘 처리된 fixed-length input을 만들어주어야 합니다. (이 때문에 사실 machine learning이 아니라 사용자가 다 공부해서 넣어준 것을 모델은 빠르게 처리를 해주는 것 뿐이라는 말이 나온것이겠죠?) 

fixed-length vector를 사용하여 text를 표현하는 일반적인 방법으로는 Bag-of-Words와 Bag-of-n-gram이 있습니다.  


Bag-of-Words(BOW) 알고리즘 동작 방식은 아래 블로그에서 정말 잘 설명해주셔서 넘어가도록 하겠습니다. 꼭 한번씩 읽어보시길 추천합니다!


 http://darkpgmr.tistory.com/125


공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함