Data Science

코딩테스트

백준 6588번 파이썬 - 골드바흐의 추측

https://www.acmicpc.net/problem/6588 문제  1742년, 독일의 아마추어 수학가 크리스티안 골드바흐는 레온하르트 오일러에게 다음과 같은 추측을 제안하는 편지를 보냈다.4보다 큰 모든 짝수는 두 홀수 소수의 합으로 나타낼 수 있다.예를 들어 8은 3 + 5로 나타낼 수 있고, 3과 5는 모두 홀수인 소수이다. 또, 20 = 3 + 17 = 7 + 13, 42 = 5 + 37 = 11 + 31 = 13 + 29 = 19 + 23 이다.이 추측은 아직도 해결되지 않은 문제이다.백만 이하의 모든 짝수에 대해서, 이 추측을 검증하는 프로그램을 작성하시오.입력입력은 하나 또는 그 이상의 테스트 케이스로 이루어져 있다. 테스트 케이스의 개수는 100,000개를 넘지 않는다.각 테스트 케이..

논문 리뷰

Llama 2: Open Foundation and Fine-Tuned Chat Models paper review

Meta(facebook)에서 무료로 공개한 연구와 상업적 용도로 활용할 수 있는 LLM이다.AbstractLlama 2는 pretrained 되고 fine-tuned 된 LLM이다. 파라미터가 70억~700억개로 다양하고, 파인튜닝한 LLM, 즉 Llama 2- chat은 대화용 케이스에 최적화 되어있다. 안정성과 유용성 측면에서 비교했을때, PaLM이나 Falcon 과 같은 모델과 비교했을 때, Llama 2가 압도적으로 좋음을 알 수 있다. 그래프에서 초록색 구역에 있는 모델은 GPT-4에 따르면 Llama 2가 더 뛰어남을 의미한다. 문제가 되는 발언을 생성하는 비율에서는 Llama 2가 낮은 것으로 보아 안정성 측면에서도 뛰어난 모델임을 알 수 있다. Introduction훈련 방법이 겉보기에 ..

논문 리뷰

Llama: Open and efficient foundation language models

AbstractLLaMA 모델은 70억~650억 개의 파라미터를 가진 기초 언어 모델로 구성되어 있음수 조 개의 토큰에 대해 훈련시키고, 오픈소스 데이터셋만으로도 최첨단 모델을 훈련시킬수 있음.  LLaMA-13B(130억개 파라미터)는 GPT-3(1750억개 파라미터) 보다  10분의 1보다 적은 파라미터 갯수로 더 뛰어난 성능을 보여줌  Introduction더 많은 파라미터가 더 나은 성능을 이끌어낼 것이라는 가정에 기반함. 특정 성능에 도달하기 작은 모델(극단적으로 gpu 1개)에서 데이터를 많이 수집하여 상대적으로 파라미터가 작은 것을 보완한다. 토큰 갯수를 늘리면 늘릴수록 정체되지 않고 계속해서 성능이 향상된다는 것을 발견.이 연구의 중점은 일반적으로 사용되는 것보다 더 많은 토큰에 대해 훈련..

Deep Learning/NLP

LLM 용어정리 - > tokenization, in - context learning, emergent abilities, temperature, BPE(Byte Pairing Encoding) 알고리즘

Tokenizing토큰은 텍스트를 구성하는 개별 단위'나는 밥을 먹는다' -> '나는','밥을','먹는다'  토큰으로 나눔huggingface tokenizer가 요즘 잘 되어 있음. 1)  단어 단위 토큰화 I ate a hotdog -> 'I','ate','a','hotdog'장점: 토큰 길이가 상대적으로 짧음단점:  vocabulary 집합크기가 너무 커짐 (cat,cats는 같은 의미이지만 따로 한 칸 씩을 차지), Unknown() 토큰 발생 가능성 높음  2) 문자 단위 토큰화   I ate a hotdog -> 'I','a','t','e','a','h','o','t','d','o','g' 장점: vocabulary 집합 크기가 작음, unknown 토큰 () 발생할 가능성이 적음 단점: 토큰..

코딩테스트

백준 9012 파이썬 - 괄호 (for~ else 문)

https://www.acmicpc.net/problem/9012 9012번: 괄호괄호 문자열(Parenthesis String, PS)은 두 개의 괄호 기호인 ‘(’ 와 ‘)’ 만으로 구성되어 있는 문자열이다. 그 중에서 괄호의 모양이 바르게 구성된 문자열을 올바른 괄호 문자열(Valid PS, VPS)이라고www.acmicpc.net문제괄호 문자열(Parenthesis String, PS)은 두 개의 괄호 기호인 ‘(’ 와 ‘)’ 만으로 구성되어 있는 문자열이다. 그 중에서 괄호의 모양이 바르게 구성된 문자열을 올바른 괄호 문자열(Valid PS, VPS)이라고 부른다. 한 쌍의 괄호 기호로 된 “( )” 문자열은 기본 VPS 이라고 부른다. 만일 x 가 VPS 라면 이것을 하나의 괄호에 넣은 새로운..

Machine Learning

사전 학습 모델 활용하기

출처: 차근차근 실습하며 배우는 파이토치 딥러닝 프로그래밍 사전학습 모델은 다음과 같이 나타낼 수 있다 from torchvision import models net= models.resnet18(pretrained=True) 파이토치 홈페이지에서 사용가능한 사전학습 모델들이 나와있다. 사전학습 모델을 이용해서 효율적으로 학습하는 방법으로 파인튜닝과 전이학습이 있다. 파인튜닝-> 사전학습 모델의 파라미터를 초깃값으로 사용하지만, 모든 레이어 함수를 사용해 학습한다. 전이 학습 -> 사전 학습 모델의 파라미터 중에서 입력에 가까운 부분의 레이어 함수는 모두 고정, 출력에 가까운 부분만을 학습 적응형 평균 풀링 함수(nn.AdaptiveAvgPool2d) -> 적응형 평균 풀링 함수는 이미지의 화소수에 의존..

코딩테스트

백준 2485번 파이썬 - 가로

https://www.acmicpc.net/problem/2485 2485번: 가로수 첫째 줄에는 이미 심어져 있는 가로수의 수를 나타내는 하나의 정수 N이 주어진다(3 ≤ N ≤ 100,000). 둘째 줄부터 N개의 줄에는 각 줄마다 심어져 있는 가로수의 위치가 양의 정수로 주어지며, 가 www.acmicpc.net 문제 직선으로 되어있는 도로의 한 편에 가로수가 임의의 간격으로 심어져있다. KOI 시에서는 가로수들이 모두 같은 간격이 되도록 가로수를 추가로 심는 사업을 추진하고 있다. KOI 시에서는 예산문제로 가능한 한 가장 적은 수의 나무를 심고 싶다. 편의상 가로수의 위치는 기준점으로 부터 떨어져 있는 거리로 표현되며, 가로수의 위치는 모두 양의 정수이다. 예를 들어, 가로수가 (1, 3, 7,..

Machine Learning

MNIST 활용한 숫자 인식

출처: 차근차근 실습하며 배우는 파이토치 딥러닝 프로그래밍 여기서 transforms를 이용하여 진행할 데이터 전처리는 다음과 같다. - 값의 범위를 [0,1]에서 [-1,1] 범위 안으로 조정 - 데이터 1건이 [1,28,28]인 3계 텐서를 [784]인 1계 텐서로 변환 + dataloader를 이용한 미니배치 학습법(그룹 단위로 경사 계산) -> 경사하강법의 local minimum 현상 해소 # 데이터 건수 확인 print('데이터 건수: ', len(train_set0)) # 첫번째 요소 가져오기 image, label = train_set0[0] # 데이터 타입 확인 print('입력 데이터 타입 : ', type(image)) print('정답 데이터 타입 : ', type(label)) 훈..

해파리냉채무침
'분류 전체보기' 카테고리의 글 목록 (2 Page)