onehotencoding #원핫인코딩 #유사도계산 #자카드유사도 #유클리디안유사도 #코사인유사도 #similarity

Deep Learning/NLP

04. One- Hot Encoding, Similarlity

One-Hot Encoding 단어를 숫자로 표현함 원숭이 = [1,0,0] 바나나 = [0,1,0] 사과 = [0,0,1] 새로운 단어가 등장할 때마다 차원이 하나씩 추가됨. 단어 수 만큼의 차원이 필요 ex. 원숭이 = [1,0,0] 차원수는 3개, 각각 숫자를 인덱스라고 부름. 원 핫 인코딩의 한계점 : 의미를 담지 못하는 문제가 있음 , 단어간의 유사성이 있는지는 판단할 수 없음 단어간의 유사성을 (-1,1) 사이 값으로 나타냄 직각으로 된 좌표의 코사인 유사도를 구했을 때 0이 나옴, 원핫인코딩의 성질은 직교한다는 성질이 있음. 즉, 어떤 단어들간의 코사인 유사도를 구하여도 0이 나온다 -> 따라서 의미를 분간하기 어려움 원핫 인코딩의 한계를 극복하기 위해 단어 임베딩 (word embeddin..

해파리냉채무침
'onehotencoding #원핫인코딩 #유사도계산 #자카드유사도 #유클리디안유사도 #코사인유사도 #similarity' 태그의 글 목록