tf-idf #ngram #NLP

Deep Learning/NLP

05. TF-IDF, N-gram

TF-IDF 역문서 빈도, 각 단어의 중요성을 가중치로 표현 tf(d,t) -한 문서 안에서 어떤 단어가 몇번 등장했는지 df(t) -단어가 얼마나 많은 문서에 등장했는지 idf(d,t) -df(t)의 역수 idf가 높으면, df가 낮은 경우 의미 tf와 달리 idf쪽에는 주로 로그를 사용한다. idf에 로그를 사용하는 이유는 단어A 와 B/ 단어 C와 D는 한개 차이지만, 빈도수가 적을때, 그 차이가 적더라도 가중치를 높게 측정한다. 단어 C와 D를 봤을 때 빈도수가 둘 다 많으면, 차이가 미미하다. 그래서 이러한 효과를 상쇄하기 위해 로그를 적용한다. TF-IDF의 계산 절차 토큰별 인덱스는 위치를 부여한다. TF 계산은 각 토큰의 등장 빈도를 계산하고, IDF 계산은 각 단어의 문서 등장빈도를 계산..

해파리냉채무침
'tf-idf #ngram #NLP' 태그의 글 목록