AI/[Paper] (2) 썸네일형 리스트형 [논문] GPT-2 : Language Models are Unsupervised Multitask Learners https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf 1. IntroductionThe dominant approach to creating ML systems = 기존 ML 시스템 = 지도학습지도학습은 좁은 전문가(narrow experts)에는 성능이 좋지만 범위를 벗어나면 성능내기 어렵다. 각 task마다 별도의 label dataset을 만들어서 각각의 모델을 지도학습으로 학습시켜왔다.Multitask training(1997) : 일반적인 성능을 향상시키기 위한 프레임워크를 내놓았지만 지도학습이라 엄청난 훈련 데이터셋이 필요했고 한계를 벗어나지 못했다.이러한 점들이 G.. [논문] Attention Is All You Need - Transformer 모델 Attention Is All You NeedThe dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a newarxiv.org내 인생 첫 논문! Transformer 모델의 시작인 논문으로 너에게 필요한 모든 것은 Attention만이다. 제목으로 시작한다.1. Introduction기존의 RNN, LSTM, GRU 기.. 이전 1 다음