머신러닝 | Supervised Leaning 지도학습 알고리즘 비교 정리
·
통계,검정,머신러닝
➡️ 지도학습과 비지도 학습지도 학습 문제(X)와 정답(Y)가 주어지고 문제(X)가 주어졌을때 정답(Y)을 맞추는 학습법비지도 학습답(Y)을 알려주지 않고 데이터 간 유사성을 이용해서 답(Y)을 지정하는 학습법정답이 없는 문제이기 때문에 지도 학습보다 조금 어려우며 주관적인 판단이 개입하게 됨➡️ 지도 학습 알고리즘 비교 알고리즘종류주요개념장점 한계점선형 회귀(Linear Regression)회귀선형관계 모델링y(수치형)직관적,해석용이,빠름x,y간 선형성 가정 필요,다중공선성 발생가능성,복잡한 관계 학습 어려움로지스틱 회귀(Logistic Regression)분류시그모이드 함수로 확률을 출력하여 이진/ 다중분류 수행 y(범주형) 직관적,해석용이복잡한 관계 학습 어려움의사결정 나무(Decision Tree..
머신러닝 | 로지스틱 회귀 분석/분류 분석 (+sklearn 파이썬 실습)
·
통계,검정,머신러닝
➡️ 로지스틱 회귀 (분류 분석)Y값이 0,1 같은 범주형인 경우 사용하는 분석법임왜 선형 회귀 분석은 사용하기 어려울까?X가 연속형 변수이고, Y가 특정 값(0 or 1)이 될 확률이라고 설정한다면왼쪽 선형 회귀로는 설명하기 어려움 ( 확률은 0과 1사이 인데, 예측 값이 확률 범위를 넘어갈 수 있는 문제 발생 )하지만, 오른쪽 그림처럼 S자 형태의 함수를 적용하면, 잘 설명한다고 할수 있음 ➡️ 오즈비와 로짓오즈비 (odds ratio) : 실패 대비 성공 확률 (발생하지 않을 확률 대비 발생할 확률) =승산비오즈비는 확률(P)가 증가할수록 급격하게 증가함 → 선형성을 따르지 않음 → log 씌워 완화(로짓)로짓 (logit) : 오즈비에 로그 씌움로짓의 그래프가 더 선형적인 그림을 나타내어 선형회귀..
머신러닝 | 머신러닝 기초와 선형 회귀 분석 (+sklearn 파이썬 실습)
·
통계,검정,머신러닝
➡️ 머신러닝 (Machine Learning, ML) 관측된 데이터의 패턴을 기반으로 예측, 분류하는 기법➡️ 머신러닝 종류Supervised Leaning(지도 학습) : 문제 + 정답을 모두 알려주고 학습 시킴 → 예측, 분류Unsupervised Learning(비지도 학습) : 답을 알려주지 않고 학습 시킴 → 연관규칙, 군집Reinforcement Learning(강화 학습) : 보상을 통해 학습 강화 → 보상➡️ 선형 회귀 분석회귀 분석이란?더보기회귀 :  연속적인 `값(숫자)을 예측`하거나 변수 간의 관계를 분석하여 `경향성을 파악`하는 데 사용하는 머신러닝 기법선형 회귀 : 직선으로 모델링, 독립변수에 따른 종속변수의 변화를 분석및 예측 (일차식)다항 회귀 : 비선형 데이터 모델링, 독립..
통계 기초 | 상관계수 (피어슨/스피어만/켄달 타우/상호정보 상관계수 / scipy & sklearn 모듈)
·
통계,검정,머신러닝
➡️ 모수 상관계수 : 피어슨 상관계수전제 : 데이터가 정규분포를 따르고 + 연속형의 숫자 데이터가 + 선형 관계 일때 사용특징두 연속형 변수 간의 선형 관계를 측정하는 지표 (수치형)-1에서 1 사이의 값을 가지며, 1은 완전한 양의 선형 관계, -1은 완전한 음의 선형 관계0은 선형 관계가 없음을 의미적용 예시공부 시간과 시험 점수 간의 상관관계 분석 피어슨 상관계수 : 파이썬 코드더보기모듈: from scipy.stats import pearsonr함수 : pearsonr (x, y)return: correlation, p-value ( p-value 값 필요없을때는 언더바 처리)주의: 상관계수 구할때 결측값이 있으면 에러남 ( 결측시 제거 선행 필수)import numpy as npimport p..
데이터 전처리 실습 | Pandas 결측치 / 중복값 / 이상치 처리/minmax 정규화
·
PYTHON
☑️결측치 확인 및 제거 하기 [문제] user_purchase_data.csv 파일에는 결측치가 포함되어 있습니다. 모든 결측치를 확인하고, 결측치가 있는 행을 제거하세요.[문제 해결]▼  결측치 (null 값) 메소드 `isna` `isnull` `dropna` 더보기결측치 확인: `isna()` ,`isnull()`boolean 으로 출력 됨 → null 이면 True ,아니면 Falsedf['컬럼'].isna() : 특정 컬럼의 null값 도 확인 가능 결측치 갯수 파악 : `isna().sum()` or `isnull().sum()` sum() 메소드는 불리안 형일때, True 값을 카운팅 해줌 결측치 제거 : `.dropna()`#데이터 읽기 df = pd.read_csv('./user_pur..