본문 바로가기
NLP/Concept

[NLP] BERT basic

by iamzieun 2023. 5. 5.

1. BERT 모델 소개

  • 학습 코퍼스 데이터
    • BooksCorpus (800M words)
    • English Wikipedia (2,500M words without lists, tables and headers)
    • 30,000 token vocabulary
  • 데이터의 tokenizing
    • WordPiece tokenizing
      • He likes playing → He likes play ##ing
    • 입력 문장을 tokenizing하고, 그 token들로 ‘token sequence’를 만들어 학습에 사용
     
  • 모델 Pre-Training
    • Masked LM

 

        • 일부 token을 masking한 후, masking된 token을 예측하는 방식으로 학습
        • 전체 token의 15%를 선택하여, 그 중
          • 80%는 [MASK] token으로 replace
          • 10%는 무작위로 선택한 token으로 replace
          • 10%는 replace하지 않음
    • Next Sentence Prediction (NSP)
      • 2개의 문장을 하나의 token sequence로 encoding하여 input으로 주고, 2번째 문장이 1번째 문장의 다음 문장이 맞는지 여부를 맞추는 방식으로 학습
        • 전체의 50%는 실제 다음 문장 (label: IsNext)
        • 나머지 50%는 무작위 문장 (label: NotNext)

2. BERT 모델의 응용

  • 단일 문장 분류
    • 감성 분석
    • 관계 추출
  • 두 문장 관계 분류
    • 의미 비교
  • 문장 토큰 분류
    • 개체명 분석
  • 기계 독해 정답 분류
    • 기계 독해

3. 한국어 BERT 모델

  • KoBERT

교착어라는 한국어의 특성 상, 단순히 단어를 n-gram으로 쪼갠 후 WordPiece tokenizing을 하는 것 보다는, 의미를 가지는 최소 단위인 형태소 단위로 분리한 후 WordPiece tokenizing을 했을 때 더욱 성능이 좋다.

  • Advanced BERT model for KBQA

기존 BERT는 KBQA에서 가장 중요한 entity 정보를 무시한다. 이에 Entity linking을 통해 주요 entity를 추출한 후 entity tag를 부착한다. 또한 entity tag를 구분할 수 있도록 entity embedding layer를 추가한다.

'NLP > Concept' 카테고리의 다른 글

[NLP] Passage Retrieval  (0) 2023.06.07
[NLP] Machine Reading Comprehension  (1) 2023.06.06
[NLP] Beam Search  (0) 2023.04.03
[NLP] Seq2Seq with Attention  (0) 2023.04.03
[NLP] Sequential Model  (0) 2023.04.03

댓글