본문 바로가기

분류 전체보기

(132)
[플레이데이터 SK네트웍스 Family AI 캠프 21기] 12월 1주차 회고 이번주에는 토크나이징 ➡️ 벡터화 ➡️ 임베딩 ➡️ RNN/LSTM/GRU ➡️ Seq2Seq 까지 NLP 처리 과정에대해 배웠다.📌 어휘 사전(Vocabulary)과 Out Of Vocabulary (OOV)어휘사전(Vocab)은 토크나이저(Tokenizer)가 사용하는 모든 토큰의 집합이며, 각 토큰을 고유한 정수 ID에 매핑한 사전이다.OOV는 어휘사전에 포함되지 않은 토큰으로 [UNK]로 대체해서 처리한다.Korpora : 한국어 NLP 실습을 위한 다양한 말뭉치 패키지Kiwi : 형태소 분석/토크나이저 패키지📌 Subword Tokenization(하위 단어 토큰화)BPE (Byte-Pair Encoding): 자주 등장하는 문자 쌍 (Byte-Pair)을 반복적으로 병합하여 subword를..
[논문] GPT-2 : Language Models are Unsupervised Multitask Learners https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf 1. IntroductionThe dominant approach to creating ML systems = 기존 ML 시스템 = 지도학습지도학습은 좁은 전문가(narrow experts)에는 성능이 좋지만 범위를 벗어나면 성능내기 어렵다. 각 task마다 별도의 label dataset을 만들어서 각각의 모델을 지도학습으로 학습시켜왔다.Multitask training(1997) : 일반적인 성능을 향상시키기 위한 프레임워크를 내놓았지만 지도학습이라 엄청난 훈련 데이터셋이 필요했고 한계를 벗어나지 못했다.이러한 점들이 G..
[플레이데이터 SK네트웍스 Family AI 캠프 21기] 11월 4주차 회고 - 2차 단위프로젝트 벌써 어느새,,, 머신러닝 모델 종류들과 딥러닝 역전파에대해서 배울 수 있었다. 특별히 이번주는 팀프로젝트도 진행해서 엄청 빨리 지나갔다.1차 프로젝트는 자동차 관련 자유 주제였는데 2차 프로젝트는 가입 고객 이탈 예측하는 모델을 개발하는것이었다. 가입 고객 이탈 예측 데이터를 찾기에는 아무래도 공개해주는 기업이 많이 없고 종류도 많이 없기때문에 어떤 데이터로 개발을 진행할지에대한 고민이 많았다.Kaggel 데이터셋 중 사용할 수 있는 데이터들 목록을 추렸고 Churn 예측 연구에서 가장 많이 쓰는 표준 데이터셋은 Telco Customer Churm 이었다. 다른 팀에서 무조건 겹칠 주제로 생각이 되어서 제외시켰다. Spotify 주제로 결정을 했으나 이것또한 다른 팀에서 이미 한다고 해서 다른 주제로..
[sklearn.metrics] 분류형 평가지표 자세히 분석하기 ✔ confusion_matrix실제 값(y_true)과 예측 값(y_pred)을 비교하여 오차 행렬을 반환한다.ConfusionMatrixDisplay : 오차 행렬을 시각화 할 수 있는 모듈from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplaycm = confusion_matrix(y_test, y_pred)disp = ConfusionMatrixDisplay(confusion_matrix=cm)disp.plot(cmap="Blues")cm 오차행렬 : train set [[1167 45] [ 27 108]] 여러 모델을 학습 시켜보면서 오차행렬을 구하고, 오차행렬을 통해 평가지표를 만든다.각 모델마다 평가지표를 비교해..
[플레이데이터 SK네트웍스 Family AI 캠프 21기] 11월 1주차 회고 이번주에 드디어 머신러닝이 시작했다. 먼저 기존 프로그램 방식과 머신러닝의 프로그램 방식의 차이점에대해서 이해하고 실제 데이터 분석 실습까지 진행했다.🤖 AI, 머신러닝, 딥러닝의 차이AI (인공지능) : 딥러닝 & 머신러닝 기술로 사용자들에게 서비스를 제공하는 형태.Machine Learning (머신러닝) : 대부분 정형 데이터. 학습 데이터를 통해 규칙(함수)를 만들어내 결과를 예측하거나 분류하는 기술 분야.Deep Larning (딥러닝) : 인공신경망 알고리즘 기반으로 머신러닝의 한 분야. 비정형 데이터에서 뛰어난 성능을 나타냄.딥러닝 🆚 기존 프로그래밍 방식 vs 머신러닝 방식기존 프로그래밍 방식 : 데이터 / 프로그램 (함수, 알고리즘) -> 컴퓨터 -> 결과 (Output)머신러닝 프로..
모델 성능을 높이기 위한 데이터 전처리 ✨ 데이터 전처리는 데이터들을 분석하고 머신러닝 모델에 적합한 형태로 데이터셋을 변환하거나 조정하는 과정을 말한다. 데이터도 다양하고 좋아야하지만 동일한 데이터로 데이터 전처리를 어떻게 하냐에따라 모델 성능 결과가 크게 달라진다. 데이터 전처리는 결측치 처리 -> 이상치 처리 -> 인코딩 -> 스케일링 순서로 이루어진다.데이터 중에 결측치(Missing Value)와 이상치(Outlier)가 존재한다. 결측치는 NA, NaN, None, null로 표현되고, 이상치는 잘못된 값이나 극단치를 가지고 있는 값을 말한다.데이터에서 결측치와 이상치의 존재여부를 확인해서 해당 데이터 행를 삭제하거나 해당 값을 대체해주는 작업을 해줘야한다.1️⃣ 결측치 검증 + 대체df.isnull().sum()각 컬럼별 결측 개수..
AI에서 화이트박스와 블랙박스🤖⁉️ AI(인공지능) 기술이 점점 더 복잡해지면서,"이 모델이 왜 이런 결과를 냈는가?"라는 질문이 중요해지고 있다고 한다.이 때 자주 등장하는 개념이 "화이트박스(White Box)"와 "블랙박스(Black Box)" 모델이다.🧩 화이트박스(White Box)란?화이트박스 모델은 내부의 작동 원리를 사람이 직접 이해할 수 있는 AI 모델로,입력부터 출력까지 어떻게 처리되어 어떤 결과로 이어지는지 투명하게 확인할 수 있는 모델을 말한다.예를들어, 선형회귀(Linear Regression), 의사결정트리(Decision Tree), 로지스틱 회귀(Logistic Regression) 모델들은 화이트 박스 모델에 속한다.선형회귀는 $ y=β_0​+β_1​x_1​+β_2​x_2​+⋯+β_n​x_n​ $ 입력변수..
[Pandas] DataFrame - iloc, loc 인덱서 Row (행)데이터프레임의 행 데이터를 구분하는 방법에는 index position(위치 기반) 과 index label(이름 기반) 존재한다.import pandas as pddf = pd.DataFrame({ 'name': ['Tom', 'Jane', 'Steve', 'Lucy'], 'age': [28, 31, 24, 27], 'city': ['Seoul', 'Busan', 'Incheon', 'Daegu'] }, index=['a', 'b', 'c', 'd']) # index label 지정, 없으면 default 0,1,2,,, 설정됨.dfdf의 index position은 [0,1,2,3]이고, 인덱스 이름은 ['a', 'b', 'c', 'd']이다.iloclocindex po..