NLP17 [NLP Paper] LoRA: Low-Rank Adaptation of Large Language Models 본 포스팅은 논문 LoRA: Low-Rank Adaptation of Large Language Models를 읽고 정리한 글입니다. https://arxiv.org/abs/2106.09685 Abstract 문제 인식 NLP의 중요한 패러다임은 1) large-scale pre-training on general domain data와 2) particular task 또는 domain으로의 adaption으로 구성된다. 하지만 점점 큰 모델을 pre-train하고 전체 parameter를 재학습하는 full fine-tuning을 하게 되어, 더 많은 비용을 필요로 하게 되었다. 해결책 제시 이에 Low-Rank Adaptation (LoRA)는 pre-train된 모델의 weight를 동결하고, T.. 2023. 7. 31. [NLP Paper] Improving Language Understanding by Generative Pre-Training (OpenAI blog 2018, GPT-1) 본 포스팅은 논문 Improving Language Understanding by Generative Pre-Training을 읽고 요약한 글입니다. https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf Abstract unlabeled 말뭉치는 많지만, specific task를 위한 labeled 말뭉치는 드물다. → 이에 따라 labeld 말뭉치로 학습한 하위 task별로 훈련된 모델의 성능에는 한계가 존재하게 된다. 따라서 unlabeld 말뭉치로 generative pre-training을 진행한 후, 각각의 specific task에 .. 2023. 7. 10. [LLM fine-tuning] PolyGlot-ko 포스팅 개요 KoAlpaca에서 Polyglot-ko 12.8B 모델을 KoAlpaca v1.1a로 fine-tuning하는 예제를 확인해볼 수 있습니다. 앞으로 이 task를 진행하는 과정에 사용된 개념들을 하나씩 파헤쳐볼 예정입니다. 그 첫 단계로 Polyglot-ko에 대해 알아보겠습니다. 아래는 Polyglot-ko의 technical report를 메인으로, 관련 내용을 정리한 것입니다. Introduction to Polyglot-ko Polyglot mBERT, BLOOM, XGLM 등 다양한 다국어 언어 모델이 공개되었음에도 불구하고, 사람들은 단일 언어 모델을 만들어 사용하고 있습니다. 이는 공개되어 있는 다국어 모델의 학습 데이터가 영어에 편중되어 있고, 이로 인해 비영어권 언어 태스크.. 2023. 7. 2. [NLP] Closed-book Question Answering with T5 포스팅 개요 본 포스팅은 Closed-book Question Answering의 등장 배경, Open-book Question Answering과 Closed-book Question Answering의 차이, 그리고 Text-to-text format의 task에 대해 간략히 정리한 글입니다. 1. Closed-book Question Answering Idea of Closed-book Question Answering MRC와 Open-Domain Question Answering을 통해 Closed-book Question Answering의 등장 배경을 살펴보자. Machine Reading Comprehension question과 context를 input으로 받아, question에 대한.. 2023. 6. 9. [NLP] Open Domain Question Answering: Linking MRC and Retrieval 포스팅 개요 본 포스팅은 Open Domain Question Answering의 등장 배경과 개요, ODQA에서의 retrieval-reader approach에 대하여 간략히 정리한 글입니다. 1. Introduction to Open-Domain Question Answering (ODQA) MRC: 지문을 기반으로 한 질의응답 ODQA: 특정 지문이 아닌 방대한 world knowledge를 기반으로 한 질의응답 ex. modern search engines: 검색어와 연관된 문서와 더불어 질문에 대한 답을 함께 제공 Text Retrieval Conference (TREC) - QA Tracks (1999-2007) 연관 문서만 반환하는 Information Retrieval (IR)에서 더 나.. 2023. 6. 9. [NLP] Passage Retrieval: Scaling Up 포스팅 개요 본 포스팅은 현실의 large document corpus에 Passage Retrieval을 적용하기 위한 두 가지 방법인 compression과 pruning, 그리고 이를 적용해볼 수 있는 라이브러리인 FAISS에 대해 정리한 글입니다. 1. Passage Retrieval and Similarity Search Similarity Search brute-force(exhaustive) search query와 모든 passage간의 유사도를 구함으로써 유사도가 가장 큰 passage를 찾는 방법 MIPS (Maximum Inner Product Search) query 벡터 q에 대하여 passage 벡터 v들 중 가장 query와 유사한(=내적값이 큰) 벡터를 찾음으로써 query와.. 2023. 6. 7. [NLP] Passage Retrieval 포스팅 개요 본 포스팅은 Open Domain Question Answering의 첫 번째 과정인 Passage Retrieval(단락 검색)에 대해 정리한 글입니다. passage의 embedding을 생성하는 두 가지 방식(sparse embedding, dense embedding)을 중심으로 정리하였습니다. 1. Introduction to Passage Retrieval Passage Retrieval 질문(query)과 연관있는 문서(passage)를 찾는 것 Passage Retrieval with MRC Open-domain Question Answering 대규모의 문서 속에서 질문(query)에 대한 정답(answer)을 찾는 task 대규모의 문서 속에서 질문과 연관된 문서를 찾고 (.. 2023. 6. 7. [NLP] Machine Reading Comprehension 포스팅 개요 본 포스팅은 Open Domain Question Answering의 두 번째 과정인 Machine Reading Comprehension(기계 독해)에 대해 정리한 글입니다. MRC의 방법론 중 Extraction-based와 Generation-based를 중심으로 작성하였습니다. What is Machine Reading Comprehension(MRC)? 기계 독해 (Machine Reading Comprehension) 주어진 지문(context)에 대한 이해를 바탕으로, 질문(query / question)에 대한 답변을 추론하는 문제 질문이 입력되면, 그 질문과 관련한 지문을 찾고, 지문으로부터 질문에 대한 답을 찾는 순서로 진행됨 Subfields of MRC Extracti.. 2023. 6. 6. [NLP Paper] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (NAACL 2019, BERT) 본 포스팅은 논문 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding을 읽고 요약한 글입니다. https://arxiv.org/abs/1810.04805 Abstract label이 없는 text 데이터에 대하여 모든 layer에서 양방향의 문맥을 모두 고려한 deep bidirectional representation을 pre-train pre-train된 BERT는 모델 구조의 큰 변경 없이 output layer을 하나만 더 추가함으로써 여러 nlp task에 맞게 fine-tuning이 가능 1 Introduction 언어 모델의 pre-training은 많은 nlp task의 성능 향상에 기여함 sent.. 2023. 5. 8. 이전 1 2 다음