NLP/Papers4 [NLP Paper] LoRA: Low-Rank Adaptation of Large Language Models 본 포스팅은 논문 LoRA: Low-Rank Adaptation of Large Language Models를 읽고 정리한 글입니다. https://arxiv.org/abs/2106.09685 Abstract 문제 인식 NLP의 중요한 패러다임은 1) large-scale pre-training on general domain data와 2) particular task 또는 domain으로의 adaption으로 구성된다. 하지만 점점 큰 모델을 pre-train하고 전체 parameter를 재학습하는 full fine-tuning을 하게 되어, 더 많은 비용을 필요로 하게 되었다. 해결책 제시 이에 Low-Rank Adaptation (LoRA)는 pre-train된 모델의 weight를 동결하고, T.. 2023. 7. 31. [NLP Paper] Improving Language Understanding by Generative Pre-Training (OpenAI blog 2018, GPT-1) 본 포스팅은 논문 Improving Language Understanding by Generative Pre-Training을 읽고 요약한 글입니다. https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf Abstract unlabeled 말뭉치는 많지만, specific task를 위한 labeled 말뭉치는 드물다. → 이에 따라 labeld 말뭉치로 학습한 하위 task별로 훈련된 모델의 성능에는 한계가 존재하게 된다. 따라서 unlabeld 말뭉치로 generative pre-training을 진행한 후, 각각의 specific task에 .. 2023. 7. 10. [NLP Paper] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (NAACL 2019, BERT) 본 포스팅은 논문 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding을 읽고 요약한 글입니다. https://arxiv.org/abs/1810.04805 Abstract label이 없는 text 데이터에 대하여 모든 layer에서 양방향의 문맥을 모두 고려한 deep bidirectional representation을 pre-train pre-train된 BERT는 모델 구조의 큰 변경 없이 output layer을 하나만 더 추가함으로써 여러 nlp task에 맞게 fine-tuning이 가능 1 Introduction 언어 모델의 pre-training은 많은 nlp task의 성능 향상에 기여함 sent.. 2023. 5. 8. [NLP Paper] Attention Is All You Need 본 포스팅은 논문 Attention Is All You Need를 읽고 요약한 글입니다. https://arxiv.org/abs/1706.03762 Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new arxiv.org Abstract 기존의 지배적인 seque.. 2023. 4. 8. 이전 1 다음