bagofwords #TDM #NLP

06. Bag of Words, TDM

2023.03.17

BoW (Bag of Words) 단어 출현 순서는 무시하고 빈도수만 기반으로 문서를 벡터화, 각 토큰들이 문서에서 몇번 등장했는지 생성방법 1.각 토큰에 고유 인덱스 부여 2. 문서별로 단어가 몇번 등장했는지 횟수 기록 한계점- 단어의 순서 고려하지 않음(문맥 고려 x), BoW는 원핫인코딩처럼 벡터공간의 낭비할 수 있음. (표시되지 않는 것 0으로 표시), 빈도수가 중요도를 의미 하지 않음. 전처리가 어떻게 하느냐에 따라 카운팅이 달라짐 code docs = ['오늘 동물원에서 원숭이를 봤어', '오늘 동물원에서 코끼리를 봤어 봤어', '동물원에서 원숭이에게 바나나를 줬어 바나나를'] #띄어쓰기 단위로 토큰화 docs_ls = [d.split() for d in docs] docs_ls [['오늘',..

06. Bag of Words, TDM

티스토리툴바