본문 바로가기

AI

(27)

RAG 논문 읽기 전 : ORQA(Open-Retrieval Question Answering) RAG 논문을 읽고 있는데 기본적으로 알아야되는 내용들이 많다. (https://arxiv.org/pdf/2005.11401)RAG는 검색(Retrieval)을 통해 얻은 외부 정보를 생성 모델(Generator)의 입력에 결합하여 답변을 만드는 기술적 방법론이다.KIT (Knowledge-Intensive Tasks)언어 모델의 파라미터 내부 지식만으로는 해결할 수 없고, 대규모 외부 문서나 DB에 접근해야만 올바른 답변을 생성할 수 있는 NLP 태스크들의 범주(예 : 회사 내부 문서, 사내 정책, 개인정보와 같은 미리 사전에 학습할 수 없는 비공개 지식을 다루는 QA 문제)KILT: a Benchmark for Knowledge Intensive Language Tasks (https://arxiv...

[논문] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding BERT: 언어 이해를 위한 깊은 양방향 트랜스포머 사전 학습Transformer의 Encoder만 사용한 모델 BERT. (https://arxiv.org/pdf/1810.04805)AbstaractBERT (Bidirectional Encoder Representations from Transformers)BERT is designed to pre-train deep bidirectional representations from unlabeled text by jointly conditioning on both left and right context in all layers.BERT는 모든 계층에서 좌우 문맥을 공동으로 고려함으로써, 비지도 텍스트로부터 깊은 양방향 표현을 사전 학습하도록 설계되었습..

[플레이데이터 SK네트웍스 Family AI 캠프 21기] 12월 1주차 회고 이번주에는 토크나이징 ➡️ 벡터화 ➡️ 임베딩 ➡️ RNN/LSTM/GRU ➡️ Seq2Seq 까지 NLP 처리 과정에대해 배웠다.📌 어휘 사전(Vocabulary)과 Out Of Vocabulary (OOV)어휘사전(Vocab)은 토크나이저(Tokenizer)가 사용하는 모든 토큰의 집합이며, 각 토큰을 고유한 정수 ID에 매핑한 사전이다.OOV는 어휘사전에 포함되지 않은 토큰으로 [UNK]로 대체해서 처리한다.Korpora : 한국어 NLP 실습을 위한 다양한 말뭉치 패키지Kiwi : 형태소 분석/토크나이저 패키지📌 Subword Tokenization(하위 단어 토큰화)BPE (Byte-Pair Encoding): 자주 등장하는 문자 쌍 (Byte-Pair)을 반복적으로 병합하여 subword를..

[논문] GPT-2 : Language Models are Unsupervised Multitask Learners https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf 1. IntroductionThe dominant approach to creating ML systems = 기존 ML 시스템 = 지도학습지도학습은 좁은 전문가(narrow experts)에는 성능이 좋지만 범위를 벗어나면 성능내기 어렵다. 각 task마다 별도의 label dataset을 만들어서 각각의 모델을 지도학습으로 학습시켜왔다.Multitask training(1997) : 일반적인 성능을 향상시키기 위한 프레임워크를 내놓았지만 지도학습이라 엄청난 훈련 데이터셋이 필요했고 한계를 벗어나지 못했다.이러한 점들이 G..

[플레이데이터 SK네트웍스 Family AI 캠프 21기] 11월 4주차 회고 - 2차 단위프로젝트 벌써 어느새,,, 머신러닝 모델 종류들과 딥러닝 역전파에대해서 배울 수 있었다. 특별히 이번주는 팀프로젝트도 진행해서 엄청 빨리 지나갔다.1차 프로젝트는 자동차 관련 자유 주제였는데 2차 프로젝트는 가입 고객 이탈 예측하는 모델을 개발하는것이었다. 가입 고객 이탈 예측 데이터를 찾기에는 아무래도 공개해주는 기업이 많이 없고 종류도 많이 없기때문에 어떤 데이터로 개발을 진행할지에대한 고민이 많았다.Kaggel 데이터셋 중 사용할 수 있는 데이터들 목록을 추렸고 Churn 예측 연구에서 가장 많이 쓰는 표준 데이터셋은 Telco Customer Churm 이었다. 다른 팀에서 무조건 겹칠 주제로 생각이 되어서 제외시켰다. Spotify 주제로 결정을 했으나 이것또한 다른 팀에서 이미 한다고 해서 다른 주제로..

[sklearn.metrics] 분류형 평가지표 자세히 분석하기 ✔ confusion_matrix실제 값(y_true)과 예측 값(y_pred)을 비교하여 오차 행렬을 반환한다.ConfusionMatrixDisplay : 오차 행렬을 시각화 할 수 있는 모듈from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplaycm = confusion_matrix(y_test, y_pred)disp = ConfusionMatrixDisplay(confusion_matrix=cm)disp.plot(cmap="Blues")cm 오차행렬 : train set [[1167 45] [ 27 108]] 여러 모델을 학습 시켜보면서 오차행렬을 구하고, 오차행렬을 통해 평가지표를 만든다.각 모델마다 평가지표를 비교해..

[플레이데이터 SK네트웍스 Family AI 캠프 21기] 11월 1주차 회고 이번주에 드디어 머신러닝이 시작했다. 먼저 기존 프로그램 방식과 머신러닝의 프로그램 방식의 차이점에대해서 이해하고 실제 데이터 분석 실습까지 진행했다.🤖 AI, 머신러닝, 딥러닝의 차이AI (인공지능) : 딥러닝 & 머신러닝 기술로 사용자들에게 서비스를 제공하는 형태.Machine Learning (머신러닝) : 대부분 정형 데이터. 학습 데이터를 통해 규칙(함수)를 만들어내 결과를 예측하거나 분류하는 기술 분야.Deep Larning (딥러닝) : 인공신경망 알고리즘 기반으로 머신러닝의 한 분야. 비정형 데이터에서 뛰어난 성능을 나타냄.딥러닝 🆚 기존 프로그래밍 방식 vs 머신러닝 방식기존 프로그래밍 방식 : 데이터 / 프로그램 (함수, 알고리즘) -> 컴퓨터 -> 결과 (Output)머신러닝 프로..

모델 성능을 높이기 위한 데이터 전처리 ✨ 데이터 전처리는 데이터들을 분석하고 머신러닝 모델에 적합한 형태로 데이터셋을 변환하거나 조정하는 과정을 말한다. 데이터도 다양하고 좋아야하지만 동일한 데이터로 데이터 전처리를 어떻게 하냐에따라 모델 성능 결과가 크게 달라진다. 데이터 전처리는 결측치 처리 -> 이상치 처리 -> 인코딩 -> 스케일링 순서로 이루어진다.데이터 중에 결측치(Missing Value)와 이상치(Outlier)가 존재한다. 결측치는 NA, NaN, None, null로 표현되고, 이상치는 잘못된 값이나 극단치를 가지고 있는 값을 말한다.데이터에서 결측치와 이상치의 존재여부를 확인해서 해당 데이터 행를 삭제하거나 해당 값을 대체해주는 작업을 해줘야한다.1️⃣ 결측치 검증 + 대체df.isnull().sum()각 컬럼별 결측 개수..

이전 1 2 3 4 다음

티스토리툴바