Deep Learning/NLP
03. 영문 텍스트 전처리
전처리 1.토큰화 -문장 단위 분리/ 단어 단위 분리 2.형태소 분석- 형태소(뜻을 가진 가장 작은 단위)로 분리 3.품사 태깅- 조사/형용사/서술어 등 품사 태깅 4.원형 복원 - 단어의 원형을 복원하여 표준화 어간 추출 -> 품사를 무시하고 규칙에 기반하여 어간을 추출함 표제어 추출 -> 사전 기반 품사정보를 유지하여 표제어 추출 5.불용어 처리 - 분석에 불필요한 단어나 방해되는 단어 제거 pip install nltk import nltk nltk.download() 하나 다운로드 창이 뜬다 그거 다운로드 하면됨 import nltk nltk.download('punkt') #마침표, 구두점 등 다운로드 from nltk.tokenize import word_tokenize text = 'I lo..