논문 리뷰

Llama: Open and efficient foundation language models

해파리냉채무침 2024. 5. 21. 15:53

Abstract

LLaMA 모델은 70억~650억 개의 파라미터를 가진 기초 언어 모델로 구성되어 있음

수 조 개의 토큰에 대해 훈련시키고, 오픈소스 데이터셋만으로도 최첨단 모델을 훈련시킬수 있음. 

 LLaMA-13B(130억개 파라미터)는 GPT-3(1750억개 파라미터) 보다  10분의 1보다 적은 파라미터 갯수로 더 뛰어난 성능을 보여줌 

 

Introduction

더 많은 파라미터가 더 나은 성능을 이끌어낼 것이라는 가정에 기반함. 

특정 성능에 도달하기 작은 모델(극단적으로 gpu 1개)에서 데이터를 많이 수집하여 상대적으로 파라미터가 작은 것을 보완한다. 토큰 갯수를 늘리면 늘릴수록 정체되지 않고 계속해서 성능이 향상된다는 것을 발견.

이 연구의 중점은 일반적으로 사용되는 것보다 더 많은 토큰에 대해 훈련하여 상대적으로 파라미터 갯수가 적더라도 데이터를 많이 모아서 최선의 성능을 내는것임.   

오픈소스 데이터를 사용하므로 누구나 진행할 수 있는 형태이다. 표준 optimizer를 사용하여 대량의 텍스트 데이터에 대한 큰 트랜스포머를 훈련시킴. 

 

Pre-training Data

공개적으로 오픈된 데이터를 모음. 1조 4천억개의 토큰을 학습시켰음.

가져온 데이터의 목록과 비율은 위와 같음. 대부분의 데이터는 CommonCrawl에서 가져옴 

이 과정에서 데이터를 라인 수준에서 중복 제거하고, fastText 선형 분류기를 이용해 언어를 식별하여 영어가 아닌 페이지를 제거하고, n-gram을 이용해 저품질의 콘텐츠를 필터링함. 

C4 데이터는 pre-trained된 CommonCrawl 데이터를 사용하면 성능이 향상된다는 것을 확인함. C4 전처리 과정에서도 중복제거와 언어 식별 단계가 포함되어 있음. 

Github 데이터는 무료 라이센스로 접근가능한 코드를 사용함. 

Wikipedia는 2022년 6월~8월까지의 데이터를 수집함. 라틴어 또는 키릴 문자를 사용하는 20개의 언어를 포함. 

Tokenizer는 BPE(Byte Pair  Encoding) 알고리즘을 사용하여 토큰화, SetencePiece의 구현을 사용함.

토큰화 후에 전체 train 데이터셋은 대략 1.4조개의 토큰을 포함함. 대부분의 훈련 데이터에서 각 토큰은 훈련 중 한번만 사용함. 

 

Architecture

transformer 아키텍처를 기반으로 함. 

4가지 파라미터 모델을 공개하였음. 각 파라미터의 형상은 위와 같음

 

Optimizer

AdamW 옵티마이저를 사용하여 훈련되고, 코사인 학습률을 사용하여 최종 학습률이 최대 학습률의 10%가 되도록 함. 가중치 감소로 0.1, gradient clipping 으로 1.0을 사용함. 

Main results

zero-shot learning -> 텍스트 설명과 테스트 예제를 제공함. 모델은 open-ended generation을 사용하여 답을 제공하거나, 제안된 답안을 순위로 나열함. 

few-shot learning ->  1~64개의 예제와 테스트 예제를 제공함. 모델은 이 텍스트를 입력을 받아 답을 생성하거나 옵션을 순위로 나열함.

GPT-3, Gopher, Chinchilla, PaLM과 성능 비교함.

 

Common Sense Reasoning

LLaMa-13B 모델은 크기가 10배 작음에도 불구하고 대부분의 벤치마크에서 GPT-3를 능가함. 

Closed-book Question Answering

Natural Questions와 Trivia QA 과 같은 기존의 대규모 언어 모델과 LLaMA를 비교함.

기존의 대규모 언어모델 대비 LLaMA가 더 큰 성능을 보여주고 있음 

Reading Comprehension

중국 중고등학생 대상 영어 읽기 이해 데이터셋인 RACE 데이터셋에서도 평가를 진행하였다.

LLaMA-65B는 PaLM-540B와 경쟁력이 있으며, LLaMA-13B는 GPT-3를 능가함.

Evolution of performance during training

오픈된 모델임에도 불구하고 GPT-3을 뛰어넘는 강력한 모델이라고 할수 있다.

파라미터가 더 큰 모델이 좋은 성능을 보여주었고, 토큰 갯수를 늘릴수록 성능 향상이 이루어짐을 알 수 있다. 

Bias, Toxicity, Misinformation

잘못된 지식이나 편향된 지식 생성할 수 있기 때문에, 안정성 테스트를 위한 데이터셋에서도 실험을 해보았다.

RealToxicityPrompts 같은 경우에는  0(비독성)에서 1(독성) 까지의 범위를 가진다. 

완벽하게 독성을 걸러내지는 못했지만 어느정도 독성에 대해 필터링하 실험을 진행했다는 것을 알 수 있다.

 

Conclusion

LLaMA-13B가 GPT-3를 능가하면서도 10배 이상 작다는 것이며, LLaMA-65B는 Chinchilla-70B와 PaLM-540B와 경쟁력을 가진다. 이전 연구와 달리 오픈된 데이터만을 사용하여 최첨단 성능을 달성할 수 있다는 것을 보여줌 

악성 및 편향과 같은 문제를 완화하기 위한 노력도 계속되고 있다. 

 

출처: udemy LLM(Large Language Model) 기초 개념부터 고성능 LLM인 Llama 2를 나만의 데이터셋에 파인튜닝(Fine-Tuning)까지!