[NLP] BERT basic

1. BERT 모델 소개

학습 코퍼스 데이터
- BooksCorpus (800M words)
- English Wikipedia (2,500M words without lists, tables and headers)
- 30,000 token vocabulary
데이터의 tokenizing
- WordPiece tokenizing
  - He likes playing → He likes play ##ing
- 입력 문장을 tokenizing하고, 그 token들로 ‘token sequence’를 만들어 학습에 사용
모델 Pre-Training
- Masked LM

- - 일부 token을 masking한 후, masking된 token을 예측하는 방식으로 학습
  - 전체 token의 15%를 선택하여, 그 중
    - 80%는 [MASK] token으로 replace
    - 10%는 무작위로 선택한 token으로 replace
    - 10%는 replace하지 않음

- Next Sentence Prediction (NSP)
  - 2개의 문장을 하나의 token sequence로 encoding하여 input으로 주고, 2번째 문장이 1번째 문장의 다음 문장이 맞는지 여부를 맞추는 방식으로 학습
    - 전체의 50%는 실제 다음 문장 (label: IsNext)
    - 나머지 50%는 무작위 문장 (label: NotNext)

2. BERT 모델의 응용

단일 문장 분류
- 감성 분석
- 관계 추출
두 문장 관계 분류
- 의미 비교
문장 토큰 분류
- 개체명 분석
기계 독해 정답 분류
- 기계 독해

3. 한국어 BERT 모델

KoBERT

교착어라는 한국어의 특성 상, 단순히 단어를 n-gram으로 쪼갠 후 WordPiece tokenizing을 하는 것 보다는, 의미를 가지는 최소 단위인 형태소 단위로 분리한 후 WordPiece tokenizing을 했을 때 더욱 성능이 좋다.

Advanced BERT model for KBQA

기존 BERT는 KBQA에서 가장 중요한 entity 정보를 무시한다. 이에 Entity linking을 통해 주요 entity를 추출한 후 entity tag를 부착한다. 또한 entity tag를 구분할 수 있도록 entity embedding layer를 추가한다.

저작자표시 (새창열림)

'NLP > Concept' 카테고리의 다른 글

[NLP] Passage Retrieval (0)	2023.06.07
[NLP] Machine Reading Comprehension (1)	2023.06.06
[NLP] Beam Search (0)	2023.04.03
[NLP] Seq2Seq with Attention (0)	2023.04.03
[NLP] Sequential Model (0)	2023.04.03

archive

[NLP] BERT basic

1. BERT 모델 소개

2. BERT 모델의 응용

3. 한국어 BERT 모델

'NLP > Concept' 카테고리의 다른 글

댓글

티스토리툴바

[NLP] BERT basic

1. BERT 모델 소개

2. BERT 모델의 응용

3. 한국어 BERT 모델

'NLP > Concept' 카테고리의 다른 글

관련글

댓글

티스토리툴바