Doc2Vec example_Imdb 단어 관계성 분석 모델

티스토리 뷰

2017_Project/NLP

Doc2Vec example_Imdb 단어 관계성 분석 모델

SAILING__66 2017. 7. 20. 16:18

이 글은 RaRe-Technologies doc2vec tutorial을 바탕으로 하고 있습니다.

https://rare-technologies.com/doc2vec-tutorial/

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-IMDB.ipynb

다음 사이트를 참고하여 코드를 따라가면 doc2vec의 동작을 이해하는 데 큰 도움이 될 것이라 생각합니다.

INTRODUCTION

Text classification, Text clustering과 같은 분야에서 주로 사용되는 머신 러닝 알고리즘에는 logistic regression과 K-means 등이 있습니다.

간단한 방법에도 불구하고 꽤(?) 높은 정확도를 보여 많이 사용되어진 방법으로 알고있습니다.

이러한 알고리즘을 사용하기 위해서는 모델을 만드는 사용자가 잘 처리된 fixed-length input을 만들어주어야 합니다. (이 때문에 사실 machine learning이 아니라 사용자가 다 공부해서 넣어준 것을 모델은 빠르게 처리를 해주는 것 뿐이라는 말이 나온것이겠죠?)

fixed-length vector를 사용하여 text를 표현하는 일반적인 방법으로는 Bag-of-Words와 Bag-of-n-gram이 있습니다.

Bag-of-Words(BOW) 알고리즘 동작 방식은 아래 블로그에서 정말 잘 설명해주셔서 넘어가도록 하겠습니다. 꼭 한번씩 읽어보시길 추천합니다!

http://darkpgmr.tistory.com/125

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2024/04 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

글 보관함

티스토리 뷰

Doc2Vec example_Imdb 단어 관계성 분석 모델

티스토리툴바