Skip to content

Transformer 기반 모델 #
Find similar titles

Transformer 기반 모델 #

Transformer 기반 모델의 종류 #

Transformer 기반 모델의 종류는 Auto Encoder, Auto Regressive 모델 두 가지가 있습니다. Auto Encoder 모델은 Transformer의 인코더 파트에서 차용한 모델로 입력 문장의 토큰을 변경하여 원본 문장을 맞추는 것을 목적으로 합니다. BERT 모델을 그 예시로 들 수 있습니다. Auto Regressive 모델은 Transformer의 디코더 파트에서 차용한 모델로 이전에 모든 토큰에 대해 다음 토큰을 예측하는 것을 목적으로 합니다. GPT, ELMo를 그 예시로 들 수 있습니다.

Transformer 기반 모델 발전 flow #

Transformer 모델의 발전 플로우는 다음과 같습니다.

Image

Image

이미지 출처 : https://yukyunglee.github.io/assets/img/posts/T5

모델 예시 #

인코더, 디코더 기반의 Seq2Seq 모델에서부터 Transformer가 생성된 이래로 자연어 처리 분야에서는 Transformer를 기반한 다양한 모델들이 발전되고 있습니다. 아래는 그 대표적인 모델과 그 설명을 기술하였습니다.

ELMo #

  • Transformer 기반 모델은 아니나 이후 발전될 모델들에 많은 영향을 미침

  • 기존의 단어에 집중했던 RNN, LSTM의 워드 임베딩 방식을 개선함 Bidirectional 방식을 도입하여 문맥을 고려할 수 있는 방법으로 개선한 모델

  • Pre-training 개념의 시초가 되는 모델

Image

이미지 출처 : https://brunch.co.kr/@learning/12

GPT #

  • Transformer 기반 모델 (AR 기반, 디코더의 Masked Multi Head Attention에서 착안)
  • 문장 시작에서부터 순차적으로 계산하는 Unidirectional 모델
  • Pre-training 및 Fine-tuning 적용
  • 종류
  • GPT 1 : Unlabeled text를 Pre-training 및 Fine-tuning 한 모델
  • GPT 2 : 앞선 모델을 기반으로 대용량 데이터 세트 구축 및 학습, Zeroshot Learning 도입
  • GPT 3 : 앞선 모델을 기반으로 파라미터 수를 1750억개로 늘려 학습, Fewshot Learning 도입

Image

이미지 출처 : https://velog.io/@sobing/%EB%94%A5%EB%9F%AC%EB%8B%9DNLPGPT-1Improving-Understanding-by-Generative-Pre-Training

BERT #

  • Transformer 기반 모델 (AE 기반)
  • 문장의 앞뒤 문맥을 모두 고려하는 Bidirectional 모델
  • 특별한 Pre-training 및 Fine-tuning 적용
  • Pre-training의 방법
    • Masked Language Model : 문장에 [MASK]를 더한 후 이를 예측하는 방법
    • Next Sequence Prediction : 문장 다음에 올 문장을 예측하는 방법
  • Fine-tuning 방법
    • Sentence Pair Classification task : 문장 두 개가 주어졌을 때 해당 문장 사이의 관계가 어떤 범주일지 분류
    • Single Sentence Classification task : 문장 한 개가 주어졌을 때 어떤 범주인지 분류
    • Single Sentence Tagging task : 문장이 주어졌을 때 문장 내 단어에 대한 레이블 태깅
    • QA task : 질문과 문장이 주어졌을 때 그 답을 예측

Image

이미지 출처 : https://ithelp.ithome.com.tw/articles/10260092

XLNet #

  • Transformer 기반 모델 (AE, AR 기반 모델)

  • Pre-training 및 Fine-tuning 적용

  • 특별한 Pre-training 적용

  • Permutation language modeling objective : AR 모델의 Unidirectional 문제를 해결하기 위해 모든 순열 조합의 시퀀스를 학습

  • Target-Aware Representation : 예측 시 활용할 representation과 Target position을 입력으로 추가
  • Two-Stream attention mechanism : Query Representation, Context Representation 두 가지 Stream을 target의 위치 정보로 활용

Image

이미지 출처 : XLNet: Generalized Autogressive Pretraining for Language Understanding

그외 최근 모델 #

  • RoBERTa, MASS, BART, MT-DNN, BigBird, T5

참고자료 #

0.0.1_20210630_7_v33