통계 기초 | 기술 통계와 추론 통계 (중심 경향치/ 산포도/ 상관 관계)
·
통계,검정,머신러닝
➡️ 기술 통계 : 데이터를 명확하게 보기 위한 목적평균, 표준편차, 분산 등데이터에 대한 대략적인 특징을 간략하게 요약해서 간단하고 쉽게 알수있음➡️ 추론 통계: 표본으로 전체(모집단)의 특성을 예측, 추정하려는 목적결과에 변수X가 어떤 영향이 있는지 확인하려는 목적신뢰구간, 가설 검정등을 활용신뢰구간 : 모집단의 평균이 특정 범위 내에 있을 것이라는 확률 (표본의 평균을 가지고 모집단의 평균 범위를 추측한 그때의 구간)보통 95% 신뢰 구간을 많이 씀,ex. 표본의 평균 만족도가 75점 이고 95% 신뢰구간이면 모집단의 평균은 70-80점 범위내 있다.가설검정 : 모집단의 가설을 검증하는 것.귀무가설 : 검증하려는 가설이 틀렷음을 나타냄. (ex. 게임이 성적에 영향을 미치지 않는다) → 기각되어야함..
실습 | PANDAS 집계 함수/ 상관관계 / 산점도 그리기 ( agg/corr/ matplotlib vs seaborn)
·
PYTHON
☑️  문제3. iris 데이터를 활용한 상관관계 파악 [문제]3-1) species별 sepal length, sepal width, petal length, petal width의 평균과 표준편차를 구하세요.3-2) sepal length, sepal_width, petal_length, petal_width 4가지 변수 중 가장 상관관계가 높은 두 변수를 찾으세요.3-3) 위에서 구한 두 변수를 x,y축으로 두고 species에 따라 분류하는 산점도를 생성하세요.[문제 풀이]내 코드 import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltiris= sns.load_dataset("iris")# 1..
데이터 시각화 | Matplotlib 기본 그래프 ( bar / hist / pie / boxplot / scatter )
·
PYTHON
☑️ matplotlib 으로 다양한 그래프 생성 가능Line Plot연속형 데이터데이터의 변화 및 추이를 시각화Bar Plot범주형 데이터카테고리 별 값의 크기를 시각적으로 비교Histogram연속형 데이터데이터 분포, 빈도, 패턴 등을 이해Pie Chart범주형 데이터의 비율범주별 상대적 비율을 부채꼴 모양으로 시각화Box Plot연속형 데이터의 분포중앙값, 사분위수, 최소값, 최대값, 이상치 확인Scatter Plot두 변수 간 관계변수 간의 관계, 군집, 이상치 등 확인☑️ 막대 그래프 (Bar plot) 막대 그래프는 범주형 데이터를 나타내며, 각각의 막대로 값의 크기를 비교하는 데 주로 사용됨`.bar(x축,y축)` #데이터셋 생성labels = ['jay','kim','park'] # 이름 ..
데이터 시각화 | Matplotlib 기본 of 기본 문법
·
PYTHON
☑️ Matplotlib 라이브러리와 기본 세팅파이썬에서 시각화를 위한 라이브러리 중 하나로, 다양한 종류의 그래프를 생성하게 하는 도구 제공2D 그래픽을 생성하는 데 주로 사용ex. 라인,막대,산점도,파이차트 등`matplotlib.pyplot` :  대부분의 2차원 데이터를 시각화하는 함수# 기본 세팅import matplotlib.pyplot as plt # 데이터 시각화import pandas as pd # 시각화 하는 데이터 df 객체 사용import numpy as np #시각화에 필요한 통계 계산☑️ plot 메서드 pandas의 plot() 메서드는 DataFrame 객체에서 데이터를 시각화 하는데 사용.데이터프레임을 ' 선' 으로 시각화 해줌 `Line Graph` ex. DataFram..
데이터 전처리 실습 | Pandas 결측치 / 중복값 / 이상치 처리/minmax 정규화
·
PYTHON
☑️결측치 확인 및 제거 하기 [문제] user_purchase_data.csv 파일에는 결측치가 포함되어 있습니다. 모든 결측치를 확인하고, 결측치가 있는 행을 제거하세요.[문제 해결]▼  결측치 (null 값) 메소드 `isna` `isnull` `dropna` 더보기결측치 확인: `isna()` ,`isnull()`boolean 으로 출력 됨 → null 이면 True ,아니면 Falsedf['컬럼'].isna() : 특정 컬럼의 null값 도 확인 가능 결측치 갯수 파악 : `isna().sum()` or `isnull().sum()` sum() 메소드는 불리안 형일때, True 값을 카운팅 해줌 결측치 제거 : `.dropna()`#데이터 읽기 df = pd.read_csv('./user_pur..
데이터 전처리 | Pandas 기본 함수 3 (concat,merge,groupby,pivot_table,sort_value)
·
PYTHON
☑️ 데이터프레임 연결하기 (concat , merge)✔️`concat` :위 아래 /좌우로 테이블 연결하기         1. concat([테이블1,테이블2],axsis=0) : 위아래로 연결         2. concat([테이블1,테이블2],axsis=1) : 좌우로 연결✔️ `.merge` : sql의 join이랑 유사, key컬럼을 기준으로 테이블 연결하기         1. .merge(df1,df2, on='key', [how='inner']) 로 연결함`concat` 은 행/열 수가 다를경우 null로 값이 저장됨 # 데이터병합1 - concatdf1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'], 'B': ['B0', 'B1', 'B2']})df2 = pd...
데이터 전처리| Pandas 기본 함수2 (loc, iloc,isin)
·
PYTHON
☑️ 데이터 선택 하기  ✔️`iloc` :행,열 번호로 특정 값을 선택       인덱스 번호로 행/열 슬라이싱 , 끝값 포함 안함 ✔️`loc` :컬럼명으로 특정 문자를 확인해서 선택       인덱스와 컬럼명으로 행/열 슬라이싱 , 끝값 포함(인덱스 아니므로)`iloc` : 인덱스 번호로 데이터 선택 df = pd.DataFrame({ 'A' : [1,2,3,4,5], 'B' : [10,20,30,40,50], 'C' : [100,200,300,400,500]})# iloc : 인덱스로 행 선택 df.iloc[0] #인덱스 0 값 행 출력 df.iloc[0::2] # 슬라이싱 인덱스 0부터 끝까지 2간격씩 출력 # iloc & 콤마 : 인덱스로 값 선택 df.iloc[0,0] # 슬라이싱 인덱스 ..