1. BERT 모델 소개
- 학습 코퍼스 데이터
- BooksCorpus (800M words)
- English Wikipedia (2,500M words without lists, tables and headers)
- 30,000 token vocabulary
- 데이터의 tokenizing
- WordPiece tokenizing
- He likes playing → He likes play ##ing
- 입력 문장을 tokenizing하고, 그 token들로 ‘token sequence’를 만들어 학습에 사용
- WordPiece tokenizing
- 모델 Pre-Training
- Masked LM
-
-
- 일부 token을 masking한 후, masking된 token을 예측하는 방식으로 학습
- 전체 token의 15%를 선택하여, 그 중
- 80%는 [MASK] token으로 replace
- 10%는 무작위로 선택한 token으로 replace
- 10%는 replace하지 않음
-
-
- Next Sentence Prediction (NSP)
- 2개의 문장을 하나의 token sequence로 encoding하여 input으로 주고, 2번째 문장이 1번째 문장의 다음 문장이 맞는지 여부를 맞추는 방식으로 학습
- 전체의 50%는 실제 다음 문장 (label: IsNext)
- 나머지 50%는 무작위 문장 (label: NotNext)
- 2개의 문장을 하나의 token sequence로 encoding하여 input으로 주고, 2번째 문장이 1번째 문장의 다음 문장이 맞는지 여부를 맞추는 방식으로 학습
- Next Sentence Prediction (NSP)
2. BERT 모델의 응용
- 단일 문장 분류
- 감성 분석
- 관계 추출
- 두 문장 관계 분류
- 의미 비교
- 문장 토큰 분류
- 개체명 분석
- 기계 독해 정답 분류
- 기계 독해
3. 한국어 BERT 모델
- KoBERT
교착어라는 한국어의 특성 상, 단순히 단어를 n-gram으로 쪼갠 후 WordPiece tokenizing을 하는 것 보다는, 의미를 가지는 최소 단위인 형태소 단위로 분리한 후 WordPiece tokenizing을 했을 때 더욱 성능이 좋다.
- Advanced BERT model for KBQA
기존 BERT는 KBQA에서 가장 중요한 entity 정보를 무시한다. 이에 Entity linking을 통해 주요 entity를 추출한 후 entity tag를 부착한다. 또한 entity tag를 구분할 수 있도록 entity embedding layer를 추가한다.
'NLP > Concept' 카테고리의 다른 글
[NLP] Passage Retrieval (0) | 2023.06.07 |
---|---|
[NLP] Machine Reading Comprehension (1) | 2023.06.06 |
[NLP] Beam Search (0) | 2023.04.03 |
[NLP] Seq2Seq with Attention (0) | 2023.04.03 |
[NLP] Sequential Model (0) | 2023.04.03 |
댓글