AI/[Paper] (5) 썸네일형 리스트형 [논문] BART: Denoising Sequence-to-Sequence Pre-training for NaturalLanguage Generation, Translation, and Comprehension RAG 논문 읽기 전 #1 : ORQA(Open-Retrieval Question Answering)RAG 논문을 읽고 있는데 기본적으로 알아야되는 내용들이 많다. (https://arxiv.org/pdf/2005.11401)RAG는 검색(Retrieval)을 통해 얻은 외부 정보를 생성 모델(Generator)의 입력에 결합하여 답변을 만드는 기술itstudentstudy.tistory.comRAG 논문 읽기 전 #2기존에 BERT와 GPT를 알고 있다면 BART는 BERT의 양방향 인코더 + GPT의 디코더이다.BART는 Denoising Autoencoder로, 텍스트에 노이즈를 섞은 뒤 다시 원문으로 복구(Reconstruction)하는 과정을 통해 학습하는 Seq-to-Seq 구조의 모델이다.B.. RAG 논문 읽기 전 #1 : ORQA(Open-Retrieval Question Answering) RAG 논문을 읽고 있는데 기본적으로 알아야되는 내용들이 많다. (https://arxiv.org/pdf/2005.11401)RAG는 검색(Retrieval)을 통해 얻은 외부 정보를 생성 모델(Generator)의 입력에 결합하여 답변을 만드는 기술적 방법론이다.KIT (Knowledge-Intensive Tasks)언어 모델의 파라미터 내부 지식만으로는 해결할 수 없고, 대규모 외부 문서나 DB에 접근해야만 올바른 답변을 생성할 수 있는 NLP 태스크들의 범주(예 : 회사 내부 문서, 사내 정책, 개인정보와 같은 미리 사전에 학습할 수 없는 비공개 지식을 다루는 QA 문제)KILT: a Benchmark for Knowledge Intensive Language Tasks (https://arxiv... [논문] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding BERT: 언어 이해를 위한 깊은 양방향 트랜스포머 사전 학습Transformer의 Encoder만 사용한 모델 BERT. (https://arxiv.org/pdf/1810.04805)AbstaractBERT (Bidirectional Encoder Representations from Transformers)BERT is designed to pre-train deep bidirectional representations from unlabeled text by jointly conditioning on both left and right context in all layers.BERT는 모든 계층에서 좌우 문맥을 공동으로 고려함으로써, 비지도 텍스트로부터 깊은 양방향 표현을 사전 학습하도록 설계되었습.. [논문] GPT-2 : Language Models are Unsupervised Multitask Learners https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf 1. IntroductionThe dominant approach to creating ML systems = 기존 ML 시스템 = 지도학습지도학습은 좁은 전문가(narrow experts)에는 성능이 좋지만 범위를 벗어나면 성능내기 어렵다. 각 task마다 별도의 label dataset을 만들어서 각각의 모델을 지도학습으로 학습시켜왔다.Multitask training(1997) : 일반적인 성능을 향상시키기 위한 프레임워크를 내놓았지만 지도학습이라 엄청난 훈련 데이터셋이 필요했고 한계를 벗어나지 못했다.이러한 점들이 G.. [논문] Attention Is All You Need - Transformer 모델 Attention Is All You NeedThe dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a newarxiv.org내 인생 첫 논문! Transformer 모델의 시작인 논문으로 너에게 필요한 모든 것은 Attention만이다. 제목으로 시작한다.1. Introduction기존의 RNN, LSTM, GRU 기.. 이전 1 다음