➡️ 지도학습과 비지도 학습
- 지도 학습
- 문제(X)와 정답(Y)가 주어지고 문제(X)가 주어졌을때 정답(Y)을 맞추는 학습법
- 비지도 학습
- 답(Y)을 알려주지 않고 데이터 간 유사성을 이용해서 답(Y)을 지정하는 학습법
- 정답이 없는 문제이기 때문에 지도 학습보다 조금 어려우며 주관적인 판단이 개입하게 됨
➡️ 지도 학습 알고리즘 비교
알고리즘 | 종류 | 주요개념 | 장점 | 한계점 |
선형 회귀(Linear Regression) | 회귀 | 선형관계 모델링 y(수치형) |
직관적,해석용이,빠름 | x,y간 선형성 가정 필요, 다중공선성 발생가능성,복잡한 관계 학습 어려움 |
로지스틱 회귀(Logistic Regression) | 분류 | 시그모이드 함수로 확률을 출력하여 이진/ 다중분류 수행 y(범주형) | 직관적,해석용이 | 복잡한 관계 학습 어려움 |
의사결정 나무(Decision Tree) | 회귀/분류 | 데이터를 트리구조로 학습 및 예측 | 해석용이, 이상치에 견고,스케일링 불필요 | 과적합 발생 가능성,작은 노이즈에도 민감 |
랜덤 포레스트(Random Forest) | 회귀/분류 | 여러개의 트리를 앙상블하여 학습 및 예측 | 과적합 예방(배깅) , 이상치에 견고,스케일링 불필요 | 해석 어려움, 계산량이 많아 리소스 비용이 큼 |
KNN(K-nearest neighbors) | 회귀/분류 | 데이터간 거리 기반으로 예측 | 이해 쉬움 | 단위에 영향을 많이 받음 (스케일링 필수) |
부스팅(Xgboost,LightGBM 등) | 회귀/분류 | 약한 모델을 반복 학습하여 강한 모델 생성 | 정확도 높음,과적합 예방 | 파라미터 튜닝 필요, 해석 어려움 |
➡️ 지도 학습 알고리즘별 활용예시와 해석법
알고리즘 | 활용 예시 | 해석 법 |
선형 회귀(Linear Regression) | Y(연속형) - 매출 예측,집값 예측 등 | 회귀계수로 X 변수의 영향력 측정 결정계수(R2)가 높을수록 설명력이 높음 |
로지스틱 회귀(Logistic Regression) | Y(범주형) - 고객이탈 예측,암 진단,스팸 분류 | 오즈비로 X 변수의 영향력 측정 accuracy,f1_score가 높을수록 성능 우수 |
의사결정 나무(Decision Tree) | 고객 세분화,대출 승인 여부,품질 분류 | 모델 성능 평가 `feature_importances` 메소드로 중요 변수 확인 |
랜덤 포레스트(Random Forest) | 신용 평가, 의료 진단 | 모델 성능 평가 `feature_importances` 메소드로 중요 변수 확인 |
KNN(K-nearest neighbors) | 추천 시스템, 이상 탐지 | 모델 성능 평가 가장 가까운 K개의 이웃과 같은 클래스에 속한다고 예측 |
부스팅(Xgboost,LightGBM 등) | 금융사기 탐지, 주가 예측 등 | 모델 성능 평가 `feature_importances` 메소드로 중요 변수 확인 |
➡️ 정리
- 변수간의 관계가 직선형 → 선형회귀(직선), 로지스틱 회귀(시그모이드 곡선) 적용
- 변수간의 관계가 곡선 →결정 트리, 랜덤 포레스트, 부스팅 모델 적용
- 각 알고리즘 별 성능 비교 후 적용
'통계,검정,머신러닝' 카테고리의 다른 글
검정 | 통계적 가설 검정 실습1 (T검정/ 카이제곱 검정) (0) | 2025.01.24 |
---|---|
머신러닝 | k-means clustering 비 지도 학습 (+IRIS 데이터로 군집화 실습) (0) | 2025.01.22 |
통계 실습2 | 카이제곱 검정 /분포별 난수로 샘플 생성하기 / 중심극한정리 (+subplots/subplot 시각화) (0) | 2025.01.18 |
통계 실습 | 변동계수 / 신뢰구간 / 이표본 t 검정 (양측검정,단측검정,정규성검정,등분산검정) (0) | 2025.01.17 |
머신러닝 실습 | 캐글의 Titanic 데이터로 로지스틱 회귀 분석 실습 하기 (+K fold 교차검증) (0) | 2025.01.15 |