논문 리뷰

논문 리뷰

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (paper review)

2018년에 google AI Language 에서 소개된 BERT 논문을 리뷰해봤다. 이후에 BERT를 기반으로한 성능좋은 여러 모델들이 발표되었는데, 이후 더 나은 모델들을 이해하기 위해 기초가 된 논문을 읽었다. BERT는 레이블이 없는 텍스트에서 양방향(bidirectional) 표현을 pre-trained 되도록 설계되었다. 그 결과 pre-trained model은 단지 하나의 output layer 추가로 파인 튜닝이 된다. 이것은 question answering 이나 언어추론(language inference) 와 같이 넓은 범위의 task를 만들기 위해 사용된다. 논문은 여기서 https://arxiv.org/pdf/1810.04805.pdf Introduction pre-trained..

논문 리뷰

Attention is all you need (NeurIPS, 2017) code review

https://www.youtube.com/watch?v=AA621UofTUA&t=2706s 동빈나 님의 [딥러닝 기계 번역] Transformer: Attention Is All You Need (꼼꼼한 딥러닝 논문 리뷰와 코드 실습) 을 보고 코드를 리뷰해봤다. 설명을 너무 잘해주신다 갓갓,,, 복받으십쇼 동빈나님의 깃허브를 많이 참고했지만 중간중간 라이브러리 문제때문에 코드 수정을 추가로 진행했다. pytorch에서 제공하는 텍스트 분류 라이브러리 torchtext를 install 해준다 !pip install torchtext==0.6.0 preprocessing spacy 라이브러리를 이용해서 영어와 독일어의 전처리 모듈을 설치한다 %%capture !python -m spacy download..

논문 리뷰

Attention is all you need (NeurIPS, 2017) paper review

BERT,GPT 등 언어 모델에서 큰 영향을 준 transformer 모델이 해당 논문에서 발표되었다. 밑바닥 부터 시작하는 딥러닝 2 책에서도 attention 파트에서 설명하고 있는 모델이다. 논문 이해 후 코드 리뷰로 넘어갈것이다. 해당 포스팅에서는 논문 설명만을 먼저 한다. 완전히 번역하기 보다는 내가 이해하고 싶어서 paraphrasing을 좀 했다는것 주의할것 논문은 여기서 https://arxiv.org/pdf/1706.03762.pdf Abstract 통상적인 시퀀스 변환 모델은 반복 또는 encoder와 decoder를 포함하는 CNN (합성곱 신경망)을 기반으로 한다. 이 논문에서는 attention 메커니즘을 기반으로 하는 간단한 아키텍처인 transformer를 제안한다. 이 모델은..

해파리냉채무침
'논문 리뷰' 카테고리의 글 목록 (2 Page)