Deep Learning/NLP

Deep Learning/NLP

04. One- Hot Encoding, Similarlity

One-Hot Encoding 단어를 숫자로 표현함 원숭이 = [1,0,0] 바나나 = [0,1,0] 사과 = [0,0,1] 새로운 단어가 등장할 때마다 차원이 하나씩 추가됨. 단어 수 만큼의 차원이 필요 ex. 원숭이 = [1,0,0] 차원수는 3개, 각각 숫자를 인덱스라고 부름. 원 핫 인코딩의 한계점 : 의미를 담지 못하는 문제가 있음 , 단어간의 유사성이 있는지는 판단할 수 없음 단어간의 유사성을 (-1,1) 사이 값으로 나타냄 직각으로 된 좌표의 코사인 유사도를 구했을 때 0이 나옴, 원핫인코딩의 성질은 직교한다는 성질이 있음. 즉, 어떤 단어들간의 코사인 유사도를 구하여도 0이 나온다 -> 따라서 의미를 분간하기 어려움 원핫 인코딩의 한계를 극복하기 위해 단어 임베딩 (word embeddin..

Deep Learning/NLP

03. 영문 텍스트 전처리

전처리 1.토큰화 -문장 단위 분리/ 단어 단위 분리 2.형태소 분석- 형태소(뜻을 가진 가장 작은 단위)로 분리 3.품사 태깅- 조사/형용사/서술어 등 품사 태깅 4.원형 복원 - 단어의 원형을 복원하여 표준화 어간 추출 -> 품사를 무시하고 규칙에 기반하여 어간을 추출함 표제어 추출 -> 사전 기반 품사정보를 유지하여 표제어 추출 5.불용어 처리 - 분석에 불필요한 단어나 방해되는 단어 제거 pip install nltk import nltk nltk.download() 하나 다운로드 창이 뜬다 그거 다운로드 하면됨 import nltk nltk.download('punkt') #마침표, 구두점 등 다운로드 from nltk.tokenize import word_tokenize text = 'I lo..

Deep Learning/NLP

02. BeautifulSoup 이용한 네이버 뉴스 데이터 수집

BeautifulSoup 와 requests를 이용하여 네이버 뉴스 데이터를 수집해보았다. 내가 수집한 뉴스는,, https://sports.news.naver.com/news?oid=117&aid=0003705467 콘테 경질→포체티노 복귀…'토트넘 선수들도 원한다' [마이데일리 = 김종국 기자] 포체티노 감독의 토트넘 복귀에 대한 기대감이 높아지고 있다.영국 스카이스포츠는 10일(한국시간) '토트넘 선수들은 포체티노 감독의 복귀를 원한다. 콘테 감독은 sports.news.naver.com (콘테 경질되길 바라는 ,,, 나의마음을 담은..) import requests from bs4 import BeautifulSoup url = "https://sports.news.naver.com/news?oi..

Deep Learning/NLP

01. 통계 기반 자연어 처리 절차

데이터 수집 -> 텍스트 전처리 -> 텍스트 분석 -> 시각화 아마 내가 학부생때 배웠던 자연어처리는 이거인듯 하다 주로 R로 작성했고 특별한 이론이 없었던것 같은 느낌 과제로 대한항공 후기 댓글 분석, 영화댓글 분석 하는것 함 이번 과정은 딥러닝 적용도 해보겠읍니다 데이터 수집 크롤링 과정,open API 수집 텍스트 전처리 포스트 내용을 일관된 포맷으로 정리, 토큰화(분석이 가능한 단위로 분리), stopword 처리, 품사 부착, 원형 복원 (표준화 과정) 텍스트 분석 포스트 내용을 긍정/부정/중립 판단, 토픽모델링, 감성분석(주관성 분석), 문서 요약 (문서 내 중요한 내용 찾아 요약) 시각화 wordcloud, EDA 등등 출처: https://github.com/insightcampus/ses..

Deep Learning/NLP

KoNLP 설치하기

1. 파이썬 버전 확인 cmd 실행후 파이썬 버전 확인 C:\Users\Owner>python --version Python 3.9.13 2.JDK 설치 https://www.oracle.com/java/technologies/downloads/#jdk19-windows 가운데 x64 Installer 다운로드 후 설치한다 라이브러리에서 이와같은 경로 검색후 경로 복사 왼쪽 하단 돋보기 모양 찾기를 통해 '고급 시스템 설정 보기' 검색 -> 고급 ->환경 변수 -> 시스템 변수 path에 경로복사 한것 붙여넣기 혹시 몰라서 JAVA_HOME 도 지정해놓음 server경로 추가함 3. JPype 설치 https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype Archived:..

해파리냉채무침
'Deep Learning/NLP' 카테고리의 글 목록 (2 Page)