전체 글 썸네일형 리스트형 Types of Data and their References 1. Tabular DataMachine Learning Whole Easy Understandinghttps://amazingagenda.tistory.com/2 Spaceship Titanic Code with XgBoost Classifierhttps://www.kaggle.com/code/ahmedgaitani/spaceship-titanic-code Regression and Classificationhttps://amazingagenda.tistory.com/1 2. Text DataEng Sentiment Analysis: Support Vector Machinehttps://www.kaggle.com/code/bansodesandeep/sentiment-analysis-support-vec.. 더보기 Spaceship Titanic Code (XgBoost Classifier) Librariesimport pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as plt# from sklearn.preprocessing import OneHotEncoderfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import LabelEncoderfrom sklearn.metrics import accuracy_scorefrom sklearn.metrics import classification_reportimport xgboost as xgb Load Datasetstrain_df = pd.read_csv('/ka.. 더보기 Advanced Learning Algorithms #4 (Decision Tree Model ) Keyword: impurity, information gain, one-hot encoding for categorical features, sampling with replacement, random forest, XGboost, where to use decision trees 4.1 Decision trees4.1.1 Decision tree model입력 특징 X는 범주형 값(이산값)을 가지며, 목표 출력 Y는 고양이 여부(1 또는 0)입니다.이는 이진 분류 작업으로, 이후에는 두 가지 이상의 값을 가지는 특징과 연속값 특징에 대해서도 다룰 것입니다. 결정 트리는 루트 노드에서 시작해 특징을 따라 좌우로 이동하며 최종 예측을 내린다.각 노드는 특정 특징을 보고 분기하며, 최하단의 리프 노드는 .. 더보기 TEXT CLASSIFICATION A. 머신러닝 이용하여 자연어 Classification하기0. COLAB 한글 깨짐1. 라이브러리 임포트2. 파일 읽어오기3. 영문, 숫자 특수문자 제거4. 전처리 : Null, 중복 제거5. Label 분포 확인6. label 숫자로 인코딩7. X, Y 분리8. train set와 test set 분리9. 머신러닝 모델링10. 예측해 보기B. LSTM 모델 이용하여 자연어 Classification하기1. 라이브러리 임포트2. 파일 읽어오기3. 영문, 숫자 특수문자 제거4. 전처리 : Null, 중복 제거5. Label 분포 확인6. label 숫자로 인코딩7. X, Y 분리8. train set와 test set 분리9. 전체 문장에 대해 Tokenizing10. texts_to_sequences .. 더보기 Advanced Learning Algorithms #3 (Advice for Applying Machine Learning) Keywords: Model evaluation(training/cross validation/test sets), bias and variance, error analysis, skewed datasets(bias and recall) 3.1 Advice for Applying Machine Learning3.2 Deciding what to try next how to do it? Let’s learn at the next video.3.1.2 Evaluating a Model주택 크기(x)로 가격을 예측하는 4차 다항식 모델이 훈련 데이터에는 잘 맞지만, 새로운 데이터에는 일반화되지 않을 수 있다.여러 특징이 있는 경우 시각적 평가가 어려워지므로, 모델 성능을 평가하기 위해 더 체계적인 방법이 필요.. 더보기 Advanced Learning Algorithms #2 (Neural Network Training) Keywords: Activation functions, Muliticlass classification, Softmax, Adam optimization, Numerical Roundoff Error, Back propagation(computation graph) 2.1 Neural Network Training2.1.1 TensorFlow implementation TensorFlow를 사용해 신경망을 훈련시키는 주요 단계는 다음과 같다:모델 정의: Sequential 모델로 세 층(첫 번째 숨겨진 층 25개 유닛과 sigmoid 활성화 함수, 두 번째 숨겨진 층, 출력층) 구성.모델 컴파일: 손실 함수로 binary crossentropy 지정.모델 훈련: fit 함수를 사용해 데이터셋(X, Y).. 더보기 Advanced Learning Algorithms #1 (Neural Networks) 1.1 Neural Networks Intuition1.1.1 Neurons and Brains Simplified Diagram of biological neuron 최근 몇 년 동안, 디지털 데이터의 폭발적인 증가와 함께 전통적인 머신러닝 알고리즘(로지스틱 회귀, 선형 회귀)이 대규모 데이터에서 성능을 향상시키지 못하는 한계를 보였다.반면, 신경망(특히 대형 신경망)은 많은 데이터를 효과적으로 활용하여 성능을 지속적으로 향상시킬 수 있었으며, GPU와 같은 빠른 컴퓨터 프로세서의 발전도 딥러닝 알고리즘의 발전에 기여했다. 1.1.2 Demand Prediction 로지스틱 회귀를 통해 sigmoid 함수(f(x))를 적용해 예측 가능, 출력값 a(활성화)로 변환하여 단일 뉴런의 모델로 사용. 신경망.. 더보기 Supervised Machine Learning Regression and Classification #2 1. Classification with logistic regression1.1 Motivationlinear regression을 classification 문제에 사용할 수 없는 이유!linear regression을 사용한 다음, threshold를 설정해서 0.5 이상 일경우 True, 0.5미만일 경우 False 하는 방식으로 구상하지만 위와 같이, 오른쪽에 data point가 하나가 더 추가된다면, decision boundary가 오른쪽으로 밀리게 되고, 여러 개의 data point가 misclassified된다는 것을 알 수 있다! 1.2 Logistic Regression1.3 Cost Function for Logistic Regression In Linear regression .. 더보기 이전 1 2 3 다음