머신러닝 | CATBOOST 알고리즘(classification)/하이퍼 파라미터튜닝(optuna) 코드 구현
·
통계,검정,머신러닝
➡️ CATBOOSTCatBoost는 강력한 그래디언트 부스팅 알고리즘으로, 범주형 데이터 처리에 강점을 가지며 뛰어난 예측 성능 자랑CatBoost는 범주형 데이터를 효과적으로 처리하는 결정 트리 기반 그래디언트 부스팅(Gradient Boosting) 알고리즘주요 특징범주형 데이터를 자동으로 인식 및 처리함. 수동으로 인코딩(예: 원-핫 인코딩) 할 필요가 없음다른 그래디언트 부스팅 알고리즘(XGBoost, LightGBM 등)과 비교했을 때 우수한 성능을 보이는 경우가 많음작동 원리여러 개의 결정 트리를 순차적으로 학습하며, 이전 트리에서 발생한 오류를 보완하는 방식으로 모델을 개선함과적합(overfitting)을 방지하기 위한 특별한 기법을 적용하여, 다양한 환경에서도 안정적인 모델 성능을 유지함..
머신러닝 | 다중 로지스틱 분류기법 베이스 모델링(+ 테스터 분리/ 전처리 함수화/모델링/평가)
·
통계,검정,머신러닝
Bank Customer Churn PredictionPredicting customer churn in banking industry using machine learning.www.kaggle.com ➡️분석 개요캐글의 bank customer churn prediction 데이터로 최적의 이탈 예측 모델을 생성하는 프로젝트 진행 중여러 분류 모델 비교를 위해 베이스 라인 모델링 후 기준으로 삼고자 함기본 전처리 후 '로지스틱 회귀 모델'을 우선 적용해 볼 예정➡️ 1. 테스터 분리 과적합 방지를 위해 테스트 분리 진행독립/종속 변수 선택후 테스터 분리팀원간 공유를 위해 random_state=42 설정, 테스트 데이터 30% 설정분리시 이탈 분포 유지를 위해 stratify=y 옵션 설정import..
머신러닝 | 머신러닝 실습 (선형 회귀 / 랜덤포레스트/로지스틱회귀 모델링+optuna / smote)
·
통계,검정,머신러닝
☑️ 필수 4. 머신러닝1 [문제]아래와 같은 데이터가 있다고 가정하겠습니다.데이터를 바탕으로 선형 회귀 모델을 훈련시키고, 회귀식을 작성해주세요.독립 변수(X): 광고예산 (단위: 만원) / 종속 변수(Y): 일일 매출 (단위: 만원)X=[10, 20, 30, 40, 60, 100] / Y=[50, 60, 70, 80, 90, 120]회귀식을통해, 새로운 광고예산이 1,000만원일 경우의 매출을 예측(계산)해주세요. 그리고 이에 대한 해석을 간략하게 설명해주세요.[문제 풀이]내 코드 #단순선형 회귀 ,종속변수가 연속형, 독립변수 1개 import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.linear_model i..
검정 | 통계적 가설 검정 실습1 (T검정/ 카이제곱 검정)
·
통계,검정,머신러닝
☑️  필수 1. 기초 통계 [문제]statistics csv 파일을 읽고, 성별 Review Rating 에 대한 평균과 중앙값을 동시에 구해주세요. 결과는 소수점 둘째 자리까지 표현해주세요.그리고 이에 대한 해석을 간략하게 설명해주세요.[문제 풀이]내 코드 import pandas as pdimport numpy as np import scipy.stats as statsfrom datetime import datetime, timedeltaimport matplotlib.pyplot as pltimport seaborn as snsdf=pd.read_csv('statistics.csv')df.groupby('Gender')['Review Rating'].agg(['mean','median']).ro..
머신러닝 | k-means clustering 비 지도 학습 (+IRIS 데이터로 군집화 실습)
·
통계,검정,머신러닝
➡️ K-평균 군집화 (k-means clustering)란비지도 학습(unsupervised learning) 기법 중 하나로, 데이터를 K개의 그룹으로 자동으로 나누는 알고리즘수행 방식K 군집수 설정임의의 중심 선정해당 중심점과 거리가 가까운 데이터 그룹핑중심점을 데이터의 그룹의 무게 중심으로 이동중심점을 이동했기 때문에 다시 거리가 가까운 데이터 그룹핑(변화가 없을때까지 3-5회 반복)➡️K-평균 군집화 (k-means clustering) 장 단점장점일반적이고 적용하기 쉬움단점거리 기반으로 가까움을 측정하기 때문에 차원이 많을 수록 정확도가 떨어짐반복 횟수가 많을 수록 시간이 느려짐몇 개의 군집(K)을 선정할지 주관적임평균을 이용하기 때문에(중심점) 이상치에 취약함➡️ 군집 평가 ( 실루엣 분석 ..
머신러닝 | Supervised Leaning 지도학습 알고리즘 비교 정리
·
통계,검정,머신러닝
➡️ 지도학습과 비지도 학습지도 학습 문제(X)와 정답(Y)가 주어지고 문제(X)가 주어졌을때 정답(Y)을 맞추는 학습법비지도 학습답(Y)을 알려주지 않고 데이터 간 유사성을 이용해서 답(Y)을 지정하는 학습법정답이 없는 문제이기 때문에 지도 학습보다 조금 어려우며 주관적인 판단이 개입하게 됨➡️ 지도 학습 알고리즘 비교 알고리즘종류주요개념장점 한계점선형 회귀(Linear Regression)회귀선형관계 모델링y(수치형)직관적,해석용이,빠름x,y간 선형성 가정 필요,다중공선성 발생가능성,복잡한 관계 학습 어려움로지스틱 회귀(Logistic Regression)분류시그모이드 함수로 확률을 출력하여 이진/ 다중분류 수행 y(범주형) 직관적,해석용이복잡한 관계 학습 어려움의사결정 나무(Decision Tree..
통계 실습2 | 카이제곱 검정 /분포별 난수로 샘플 생성하기 / 중심극한정리 (+subplots/subplot 시각화)
·
통계,검정,머신러닝
☑️  문제4. 카이제곱 검정[문제]- 다음 `click_rate` 데이터는 헤드라인별 클릭과 클릭하지 않은 수 에 대한 데이터입니다.- 귀무가설과 대립가설을 설정하세요.- 카이제곱 검정 수행하여 실제로 클릭률에 대한 차이가 있는지  유의수준 0.05 에서 검정해보세요.[문제 풀이]내 코드 -오답import pandas as pdfrom scipy import stats# URL 로 데이터 가져오기url = "https://raw.githubusercontent.com/gedeck/practical-statistics-for-data-scientists/master/data/click_rates.csv"click_rate = pd.read_csv(url)clicks = click_rate.pivot(i..
통계 실습 | 변동계수 / 신뢰구간 / 이표본 t 검정 (양측검정,단측검정,정규성검정,등분산검정)
·
통계,검정,머신러닝
☑️  문제1. 표본 집단의 변동계수 구하기[문제]- 회사 주식에 투자하고자 합니다. 하지만 보수적인 나는 변동성이 크지 않은 회사를 골라 안정적인 투자를 희망합니다. 이를 위해 2가지 회사로 좁혔고 A,B회사의 6일간 주가 데이터를 수집하였습니다. Numpy 혹은 Pandas를 이용하여 회사의 변동계수를 구해봅시다.[문제 풀이]내 코드 -numpy 모듈 (오답)import numpy as npcom_a = [76300, 77400, 77900, 77200, 76900, 78800]com_b = [6400, 7000, 7400, 6900, 7300, 7600]cv_a_np = np.std(com_a) / np.mean(com_a)cv_b_np = np.std(com_b) / np.mean(com_b)# ..
머신러닝 실습 | 캐글의 Titanic 데이터로 로지스틱 회귀 분석 실습 하기 (+K fold 교차검증)
·
통계,검정,머신러닝
캐글의 타이타닉 데이터셋으로 첫 머신러닝 분석 실습을 진행했다.  데이터 전처리 과정 부터 분석 모델 평가까지 진행해 보자  ➡️ 1. 데이터 LOAD & EDA 목표 : 로지스틱 회귀 분석으로 승객의 타이타닉호 생존유무 와 모델의 정확도 측정import pandas as pdimport seaborn as snsimport numpy as npimport matplotlib.pyplot as plttrain_df = pd.read_csv('train.csv')test_df = pd.read_csv('test.csv')#데이터 확인 display(train_df.shape)display(test_df.shape)#EDA - 데이터 분포 및 이상치 확인train_df.info()train_df.descri..
머신러닝 | 이상치/ 결측치/ 범주형 데이터 인코딩/ 수치형 데이터 스케일링(+sklearn 모듈)
·
통계,검정,머신러닝
➡️ 이상치 (Outlier) 처리 ESD( Extreme Studentized Deviation) : 표준편차의 3배데이터가 정규분포를 따른다고 가정할 때, 평균에서 표준편차의 3배 이상 떨어진 값비대칭 이거나 왜곡된 분포에는 부적합IQR(Inter Quantile Range) : iqr 의 1.5배IQR은 중앙값(median)을 기준으로 계산되므로 비대칭적인 분포에도 잘 적용기준 선택 극단적인 이상치가 적고, 정규분포에 가까운 경우: ESD다수의 이상치가 존재하거나 비대칭적인 분포일 때: IQR이상치 처리 주의사항이상치 처리는 데이터 분석가의 몫임 → `상황에 맞춰 삭제 or 변환 할수있음`예컨데, 매출의 상한 이상치가 46이고, 이상치가 46.5 ~47 정도 사이라면 데이터를 날리는 대신 이상치를 ..