Table of Contents
Transformer 기반 모델 #
Transformer 기반 모델의 종류 #
Transformer 기반 모델의 종류는 Auto Encoder, Auto Regressive 모델 두 가지가 있습니다. Auto Encoder 모델은 Transformer의 인코더 파트에서 차용한 모델로 입력 문장의 토큰을 변경하여 원본 문장을 맞추는 것을 목적으로 합니다. BERT 모델을 그 예시로 들 수 있습니다. Auto Regressive 모델은 Transformer의 디코더 파트에서 차용한 모델로 이전에 모든 토큰에 대해 다음 토큰을 예측하는 것을 목적으로 합니다. GPT, ELMo를 그 예시로 들 수 있습니다.
Transformer 기반 모델 발전 flow #
Transformer 모델의 발전 플로우는 다음과 같습니다.
이미지 출처 : https://yukyunglee.github.io/assets/img/posts/T5
모델 예시 #
인코더, 디코더 기반의 Seq2Seq 모델에서부터 Transformer가 생성된 이래로 자연어 처리 분야에서는 Transformer를 기반한 다양한 모델들이 발전되고 있습니다. 아래는 그 대표적인 모델과 그 설명을 기술하였습니다.
ELMo #
-
Transformer 기반 모델은 아니나 이후 발전될 모델들에 많은 영향을 미침
-
기존의 단어에 집중했던 RNN, LSTM의 워드 임베딩 방식을 개선함 Bidirectional 방식을 도입하여 문맥을 고려할 수 있는 방법으로 개선한 모델
-
Pre-training 개념의 시초가 되는 모델
이미지 출처 : https://brunch.co.kr/@learning/12
GPT #
- Transformer 기반 모델 (AR 기반, 디코더의 Masked Multi Head Attention에서 착안)
- 문장 시작에서부터 순차적으로 계산하는 Unidirectional 모델
- Pre-training 및 Fine-tuning 적용
- 종류
- GPT 1 : Unlabeled text를 Pre-training 및 Fine-tuning 한 모델
- GPT 2 : 앞선 모델을 기반으로 대용량 데이터 세트 구축 및 학습, Zeroshot Learning 도입
- GPT 3 : 앞선 모델을 기반으로 파라미터 수를 1750억개로 늘려 학습, Fewshot Learning 도입
BERT #
- Transformer 기반 모델 (AE 기반)
- 문장의 앞뒤 문맥을 모두 고려하는 Bidirectional 모델
- 특별한 Pre-training 및 Fine-tuning 적용
- Pre-training의 방법
- Masked Language Model : 문장에 [MASK]를 더한 후 이를 예측하는 방법
- Next Sequence Prediction : 문장 다음에 올 문장을 예측하는 방법
- Fine-tuning 방법
- Sentence Pair Classification task : 문장 두 개가 주어졌을 때 해당 문장 사이의 관계가 어떤 범주일지 분류
- Single Sentence Classification task : 문장 한 개가 주어졌을 때 어떤 범주인지 분류
- Single Sentence Tagging task : 문장이 주어졌을 때 문장 내 단어에 대한 레이블 태깅
- QA task : 질문과 문장이 주어졌을 때 그 답을 예측
이미지 출처 : https://ithelp.ithome.com.tw/articles/10260092
XLNet #
-
Transformer 기반 모델 (AE, AR 기반 모델)
-
Pre-training 및 Fine-tuning 적용
-
특별한 Pre-training 적용
-
Permutation language modeling objective : AR 모델의 Unidirectional 문제를 해결하기 위해 모든 순열 조합의 시퀀스를 학습
- Target-Aware Representation : 예측 시 활용할 representation과 Target position을 입력으로 추가
- Two-Stream attention mechanism : Query Representation, Context Representation 두 가지 Stream을 target의 위치 정보로 활용
이미지 출처 : XLNet: Generalized Autogressive Pretraining for Language Understanding
그외 최근 모델 #
- RoBERTa, MASS, BART, MT-DNN, BigBird, T5
참고자료 #
- https://www.youtube.com/watch?v=v7diENO2mEA
- https://yukyunglee.github.io/assets/img/posts/T5
- https://brunch.co.kr/@learning/12
- https://velog.io/@sobing/%EB%94%A5%EB%9F%AC%EB%8B%9DNLPGPT-1Improving-Understanding-by-Generative-Pre-Training
- https://tech.scatterlab.co.kr/transformer-review/
- BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding (NAACL 2019)
- XLNet: Generalized Autoregressive Pretraining for Language Understanding (NIPS 2018)