Data Science

자료구조

지역변수와 전역변수, global

저어는,, 원래 R을 1년반 쓰고 파이썬을 딱 반학기만 썼기 때문에 지식 보완을 하고자 기초부터 다져봅니다 이제 파이썬만 쓸예정 전역변수 함수 밖에서 생성된 변수, 함수 내에서 사용가능 say1= 'hello' def sayhello(): print(say1) sayhello() hello()가 출력됨 지역변수 def saygoodbye(): say2 = 'goodbye'#지역변수 print(say2) 이렇게 하면 error뜸 전역변수를 함수내에서 변경하려고 하면 global 키워드를 사용하여 선언해주어야함. n1=1 n2=10 def get_plus_minus(): n1=2 plus = n1+n2 minus = n1-n2 return plus,minus get_plus_minus() (12, -8) 여..

자료구조

딕셔너리 연습하기

영어 단어장 만들기 엔터를 입력할 때 까지 영어단어, 뜻을 입력받아 단어장을 만들고, 입력이 끝나면 단어 테스틀르 실시하는 프로그램을 만들어봅시다. 1) 단어장 만들기 엔터를 입력할 때 까지 영어단어 뜻을 입력받아 딕셔너리에 저장 dict_word = {} while True: input_word = input('영어단어,뜻:') if input_word =="": break eng = input_word.split(',')[0] kor = input_word.split(',')[1] dict_word[eng] = kor dict_word 2) 단어테스트를 실시하고 맞은 갯수 계산 단어장의 단어들을 모두 테스트 맞은 갯수는 별도로 카운트 cnt = 0 for eng,kor in dict_word.item..

자료구조

리스트 연습하기

Q1. 학생별 총점, 평균 구하기 score_list = [[96,84,80],[96,86,76],[76,95,83],[89,96,69],[90,76,91]] 각 학생들의 세 과목 성적의 [총점, 평균]을 구하여 리스트에 담으시오. 평균은 반올림하여 소수점 1자리까지 표현한다. score_list = [[96,84,80],[96,86,76],[76,95,83],[89,96,69],[90,76,91]] stu_scores = [] for i in score_list: total = sum(i) average = total/3 stu_scores.append([total,round(average,1)]) stu_scores Q1-1. 과목별 평균 구하기 각 과목의 리스틀르 분리하고 과목별 평균을 구한다. 평..

자료구조

파이썬 알고리즘

Q1. 1~100 사이의 정답 숫자를 랜덤으로 하나 정하고, 정답 숫자를 맞출 때까지 숫자를 입력하는 게임. 내가 입력한 숫자가 정답보다 작으면 'DOWN', 정답보다 크면 'UP'을 출력하고 숫자를 다시 입력받아 정답을 맞추면 '정답!'이라 출력하고 게임을 끝낸다. #정답숫자 import random num = random.randrange(1,101) #1과 100 사이의 숫자를 랜덤으로 범위 지정 print(num) #정답을 맞출 때까지 반복하기 (정답을 맞추면 반복에서 벗어나기) while True: answer = int(input('예상숫자:')) if answer == num: print('정답') break if answer < num: print('DOWN') else: print('UP..

Deep Learning/NLP

11. Luhn Summerizer

문서 요약이란 중요한 문장을 자동으로 추출하는 과정 중요한 문장을 추출한다 -> 문장의 중요성을 어떻게 판단? 추상적 요약 문서를 의미적으로 이해 , 의미 추출 하여 요약 생성 추출 요약 문장별 중요도 계산 , 순위 높은 문장 선택 , 기술의 난이도가 있음. Luhn Summerize 이용한 문서 요약 단어의 중요도는 사용빈도로 측정, 작가는 중요한 단어를 반복한다. 중요 단어를 구분할 수 있는 구역을 C와 D로 표시 빈도수가 높다고 무조건 중요한 단어는 아님을 의미. 작성자가 많이 사용한 단어가 많은 문장이 중요한 문장이다 문장의 중요도 sentence 각 대쉬는 토큰을 의미함. 중요 단어가 시작하는 처음과 끝사이 단어들 중 중요단어의 상대 비율 문장 중요도 = (윈도내 포함된 중요단어 갯수)^2/ 윈..

Deep Learning/NLP

10. TextRank

TextRank TextRank는 각 문서를 토큰화 -> 그래프 생성 (서로 간의 관계를 이용) -> 중요도 계산하여 핵심 키워드 추출 그래프 기반 Ranking 모델, 키워드와 문장추출을 위한 비지도 학습 방법 제안(문서만 있으면 키워드나 문장 추출) Graph-based ranking algorithms -> 구글 PageRank에서 사용됨, 그래프 기반 각 노드의 중요성을 결정하는 방법 많은 득표를 한 노드가 중요한 노드임을 의미. 구글 페이지 랭크 원리를 보면, c,b는 웹페이지 나를 참조로 하고 있는 링크가 많을 때 중요한 웹페이지라고 간주 -> 가중치가 올라감 S(Vi): 아래 PR(A) 와 같은 역할 나와 인접하고 있는 노드가 가지고 있는 링크 만큼 분해하여 스코어를 받음 키워드 추출의 Te..

Deep Learning/NLP

09. 핵심키워드 추출

핵심키워드 추출 핵심 키워드 추출이란 문서에서 가장 중요한 단어를 자동으로 추출 "단어의 중요성을 어떻게 판단할 것인가?" 대량 데이터 처리 가능-> 직접 읽지 않아도 처리할 수 있음 추출의 일관성 -> 정해진 모델 통해서 동일한 기준을 가지고 추출, 모델에서 변화를 줄 수 있는 것은 파라미터(매개변수)임. 모델 자체는 변하지 않음. 실시간 분석이 가능 -> 키워드 추출을 실시간으로 진행 1. 단어 빈도를 활용한 접근 문서를 단순한 단어모음으로 간주,but 단어의 의미, 구조, 문법, 순서를 고려하지 않음 2. 연어/ 동시발생 n-gram을 통해 일부분 문맥에 대한 부분 처리 예를 들어 '고객 서비스'라는 연어가 있을 때 고객/ 서비스 하면 알 수 없지만 고객 서비스를 같이 보면 무엇을 의미하는지 알 수..

Deep Learning/NLP

08. 주성분 분석

차원 축소 차원의 저주는 n x p 일때 p가 많은 경우, 연산이 어렵고 데이터 표현이 어려움 이를 위해 차원을 축소함 차원 축소로 인해 정보 손실이 발생할 수 있음 예시) 국어: 80점, 영어 60점, 수학 90점, 과학 90점 평균 = (80+60+90+80)/4 = 77.5점 평균이라는 하나의 차원으로 나타냄, 하지만 평균으로 각 과목의 점수가 몇인지는 정확히 알 수 없음. 정보 손실을 최소화하는 것이 관건. pc1 축으로 하면 좌표들이 겹치지 않고 정보를 가져올 수 있음. 축에 영세했을 때 가장 많이 퍼져있는 것을 알 수 있음. 축을 찾아내는 과정이 주성분 분석이라고 할 수 있다. 주성분 분석 고차원 데이터를 저차원 데이터로 환원한다. 분산이 가장 커질때 (= 정보 손실을 최소화 하는)축을 pc1..

해파리냉채무침
'분류 전체보기' 카테고리의 글 목록 (14 Page)