
머신러닝 | 이상치/ 결측치/ 범주형 데이터 인코딩/ 수치형 데이터 스케일링(+sklearn 모듈)
·
통계,검정,머신러닝
➡️ 이상치 (Outlier) 처리 ESD( Extreme Studentized Deviation) : 표준편차의 3배데이터가 정규분포를 따른다고 가정할 때, 평균에서 표준편차의 3배 이상 떨어진 값비대칭 이거나 왜곡된 분포에는 부적합IQR(Inter Quantile Range) : iqr 의 1.5배IQR은 중앙값(median)을 기준으로 계산되므로 비대칭적인 분포에도 잘 적용기준 선택 극단적인 이상치가 적고, 정규분포에 가까운 경우: ESD다수의 이상치가 존재하거나 비대칭적인 분포일 때: IQR이상치 처리 주의사항이상치 처리는 데이터 분석가의 몫임 → `상황에 맞춰 삭제 or 변환 할수있음`예컨데, 매출의 상한 이상치가 46이고, 이상치가 46.5 ~47 정도 사이라면 데이터를 날리는 대신 이상치를 ..