➡️ 추론 통계
- 목적 : 표본으로 전체의 특성을(모평균,모표준편차 등을) 예측, 추정
- 신뢰구간/ 가설검정 등을 활용
- 공통점 : 모집단의 평균의 대한 정보를 구하고자 함
- 차이점
- 신뢰구간 : 특정 모수가 포함될 범위만 확인 → 신뢰수준에 포함된다 안된다만 확인 가능
- 가설검정 : 모집단의 가설을 검증 → 모수가 특정값과 다른지 같은지 확인 가능
- 모수 : 모집단의 특징을 의미함 (EX. 모평균, 모 표준편차 등 추론의 실제 대상이 되는)
➡️ 모수 추정
- 점 추정 : 모수를 특정한 수치로 표현하는것 ( EX. 평균은 75다)
- 구간 추정(신뢰구간) : 추정값에 대한 신뢰도를 제시하며서 모수를 추정 ( EX. 평균은 70~80 사이에 있고, 그 확률은 (신뢰수준은) 95% 이다.)
➡️ 가설 검정과 가설 종류
- 모집단 특징에 대해 가설을 세우고 , 표본 데이터를 통해 모집단의 가설을 검증하는 과정
- 데이터가 특정 가설을 지지하는지 평가함
- 예시 ) A/B 서비스의 차이가 사실인가? 진짜 유의미한 차이 인가?
- 가설 검정 이유
- A,B 서비스의 사용자의 분포 등이 다르기 때문에 결과 값이 실제 유의미한 차이인건지 확인이 필요함
- 가설 종류
- 귀무가설(null) : H0 - 기각해야하는 가설
- 모집단 평균이 특정값 (추정값)과 같을 것이라는 가설
- 대립가설(alternative) : H1 - 채택해야하는 가설
- 모집단 평균이 특정값(추정값)과 다를 것이라는 가설
- 귀무가설(null) : H0 - 기각해야하는 가설
- 통계적 유의성 : 결과가 우연히 발생한 것이 아닌 어떤 효과가 실제로 존재하냐를 나타낸 지표
➡️ 가설 검정 단계
- 가설 설정 : 귀무가설 or 대립가설
- 유의 수준 결정 : 보통 p-value 가 0.05 보다 낮으면 유의미하다고 봄 (유의수준 : 0.05)
- 도메인에 따라 유의수준은 다를 수 있음
- 검정 분포와 방법 결정 : Z 검정, T 검정 등
- 검정 통계량 계산 : 검정통계량 , p-value, 자유도 등 계산
- P-value 와 유의수준 비교
- 결론 도출

- 가설 검정 예시) 신규 약물이 기존 약물보다 효과가 있는지 검정
- 가설 설정
- 귀무가설 : 신규 약물은 기존 약물과 큰 차이가 없다
- 대립가설 : 차이가 있다
- 유의 수준 결정 : 5%
- 검정 분포와 방법 결정 : 독립표본 t 검정 선택(임의)
- 검정 통계량 계산 : 검정통계량 , p-value, 자유도 등 계산
- P-value 와 유의수준 비교 :
stats.ttest_ind(A, B)
파이썬 메소드 활용 - 결론 도출 : 귀무가설 기각 or 채택
- 가설 설정
▼코드 : scipy 모듈의 stats.ttest.ind 메소드 활용
더보기
# 기존 약물(A)와 새로운 약물(B) 효과 데이터 생성
A = np.random.normal(50, 10, 100)
B = np.random.normal(55, 10, 100)
# 표본 평균 계산
mean_A = np.mean(A)
mean_B = np.mean(B)
# t-검정 수행
t_stat, p_value = stats.ttest_ind(A, B)
print(f"A 평균 효과: {mean_A}")
print(f"B 평균 효과: {mean_B}")
print(f"t-검정 통계량: {t_stat}")
print(f"p-값: {p_value}")
# t-검정의 p-값 확인 (위 예시에서 계산된 p-값 사용)
print(f"p-값: {p_value}")
if p_value < 0.05:
print("귀무가설을 기각합니다. 통계적으로 유의미한 차이가 있습니다.")
else:
print("귀무가설을 기각하지 않습니다. 통계적으로 유의미한 차이가 없습니다.")
➡️ 검정 통계량과 유의확률(P-value)
- 검정 통계량
- 가설을 검정할 목적으로 정의하는 통계량으로 가설을 기각하는 지표
- 정규 분포에서 X 값에 해당하는 값
- 계산법
- Z 통계량 : (표본평균 - 모평균) /표준오차(모 표준편차 / 표본크기의 제곱근)
- T 통계량 : (표본평균 - 모평균) /표준오차 (표본 표준편차 / 표본크기의 제곱근)


- 유의 확률 (P-VALUE/ P값)
- p-value는 귀무가설이 참일 때, 관측값(검정 통계량)이 등장할 확률
- 즉, 귀무가설이 참일 때 ,검정 통계량이 그 이상 혹은 그 이하의 극단적인 값을 나타낼 확률
- 유의수준 : 귀무가설 기각할 기준을 설정하는 데 사용되는 임계값 (고정값임)
- P 값 >= 유의수준 : 우연히 발생 = 기존 정규분포 유지
- P 값 < 유의수준 : 귀무가설 기각 = 대립가설 채택 (기존 정규분포 바꿔야한다)
- 일반적으로 p 값이 0.05 미만 일때 통계적으로 유의미하다고 판단
- 5% 의미 : 양 극단 백분율을 의미함
- 두 그룹의 평균의 차이가 5% 안에 포함됨 = 평균의 차이가 크다 = 차이가 유 의미 하다 =귀무가설 기각 (=대립가설 채택)
- 검정통계량과 유의확률 이해
- 검정 통계량이 극단값에 가까울수록 P-VALUE가 작아짐 = 귀무가설 기각 확률이 높아짐
- 검정 통계량이 평균값에 가까울수록 P-VALUE가 커짐 = 귀무가설 참을 확률이 높아짐

➡️ P-value/ 유의 수준과 이상치 판단
- 우리가 믿는 정규분포가 있고, 이상값(예외 상황) 발생 했을 때. 아래 두가지로 생각해볼수 있음
- 우리가 알고있는 분포에서의 이상치네? (p 값이 유의 수준 이상일 때)
- 분포형태가 우리가 알고있는 분포가 아닐수도 있겠는데? (p 값이 유의수준 미만일때)
➡️표준편차 정리 ( 모표준편차,표본표준편차,표준오차)
- 모 표준 편차 : 모집단의 표준 편차 (즉 , 모집단의 흩어진 정도 = 추정해야하는 값)

- 표본 표준 편차 : 표본의 표준 편차 (자유도 개념이 들어감 N-1로 나눠줌)

- 표준 오차 = 표본 평균의 표준편차
- 표본이 모집단을 얼마나 잘 대표하는지 측정하는 지표
- 계산식 : 표준편차 / ( 표본크기의 제곱근)

-
- 표본의 크기가 클수록(분모), 표준 오차는 작아짐 .
- 모 표준편차가 작을수록(분자) 표준 오차는 작아짐
직관적으로 이해하면, 모 표준편차가 작으면 평균으로 데이터가 몰려있다라는 뜻이고, 거기서 중심에 가까운 샘플들이 뽑히므로 표준 오차도 작아짐 결국 표본이 모집단을 더 잘 추정하게 된다.
- 표준오차의 표본/모집단 추정
- 표준오차가 크면 표본이 모집단을 덜 반영
- 표준오차가 작으면 표본이 모집단을 반영
➡️ 중심극한 정리(CLT)
- 다양한 분포 형태에서 N(복원 추출)이 충분히 크다면 (해당 평균들의 분포가) 정규분포에 근사함
'통계,검정,머신러닝' 카테고리의 다른 글
연속 확률 분포 | 정규분포/ 표준 정규 분포/ 긴 꼬리 분포/ 스튜던트T 분포/ 카이제곱 분포 (0) | 2025.01.10 |
---|---|
가설 검정 | Z검정과 T검정 ( +2표본 T검정 / SCIPY 모듈 코드) (0) | 2025.01.10 |
이산 확률 분포 | 베르누이 분포, 이항 분포, 푸아송 분포 (+scipy 모듈) (0) | 2025.01.07 |
통계 기초 | 모집단과 표본, 표본오차와 신뢰 구간 (0) | 2025.01.07 |
통계 기초 | 기술 통계와 추론 통계 (중심 경향치/ 산포도/ 상관 관계) (0) | 2025.01.06 |