NLP/Concept
[NLP] Open Domain Question Answering: Linking MRC and Retrieval
iamzieun
2023. 6. 9. 20:58
포스팅 개요
본 포스팅은 Open Domain Question Answering의 등장 배경과 개요, ODQA에서의 retrieval-reader approach에 대하여 간략히 정리한 글입니다.
1. Introduction to Open-Domain Question Answering (ODQA)
- MRC: 지문을 기반으로 한 질의응답
- ODQA: 특정 지문이 아닌 방대한 world knowledge를 기반으로 한 질의응답
- ex. modern search engines: 검색어와 연관된 문서와 더불어 질문에 대한 답을 함께 제공
- Text Retrieval Conference (TREC) - QA Tracks (1999-2007)
- 연관 문서만 반환하는 Information Retrieval (IR)에서 더 나아가, short answer with support를 목표로 함
- Question Processing + Passage Retrieval + Answer Processing
- Question Processing
- Query Formulation: 질문으로부터 키워드를 선택
- Answer Type Detection: 답변의 형태를 선택
- Passage retrieval
- 기존의 IR 방법을 활용하여 관련된 document를 추출한 후, document를 passage 단위로 나눈 후 관련된 passage를 추출
- Answer processing
- 주어진 문제와 선별된 passage로부터 답변 추출
- Question Processing
2. Retriever-Reader Approach
- Retriever-Reader Approach
- Retriever: 데이터베이스에서 문제와 관련한 문서를 검색 (search)
- 입력: question, document corpus
- 출력: question과 관련성이 높은 document
- Reader: 검색된 문서에서 질문에 해당하는 답을 추출
- 입력: retrieve 과정에서 추출된 question과 관련성이 높은 document
- 출력: answer
- Retriever: 데이터베이스에서 문제와 관련한 문서를 검색 (search)