신뢰구간과 가설검정: 머신러닝 확률통계 4장
3장에서는 표본으로 모집단을 추정하는 MLE와 MAP를 배웠습니다. 이번 글에서는 추정의 불확실성을 수치화하는 신뢰구간과, 가설을 데이터로 검증하는 가설검정을 다룹니다.
1. 신뢰구간 (Confidence Intervals)#
신뢰구간이란?#
점 추정(point estimate)은 모수를 단일 값으로 추정합니다. 그러나 표본은 항상 변동이 있기 때문에 구간 추정이 더 유용합니다.
신뢰구간(CI): 모수가 포함될 것으로 기대되는 값의 범위
- 95% CI: 동일한 실험을 100번 반복하면 약 95번은 해당 구간에 모평균이 포함됨
- CI는 특정 구간에 모수가 있을 "확률"이 아님 — 모수는 고정값, CI가 변하는 것
오차 한계 (Margin of Error)#
| 신뢰수준 | |
|---|---|
| 90% | 1.645 |
| 95% | 1.960 |
| 99% | 2.576 |
표본 크기의 영향: 이 클수록 이 작아져 CI가 좁아짐 (더 정밀한 추정)
CI 계산 절차:
- 점 추정값 계산 ()
- 신뢰수준 선택 → 결정
- 표준오차 계산:
- CI 계산:
모표준편차를 모를 때 — t분포#
현실에서는 를 모르는 경우가 대부분입니다. 이때 표본표준편차 로 대체하면 불확실성이 커지므로 t분포를 사용합니다.
- 자유도(df) =
- 이 작을수록 꼬리가 두꺼워짐 (불확실성 반영)
- 이 크면 표준정규분포에 수렴
t분포를 활용한 CI:
비율의 신뢰구간#
이진 결과(성공/실패)에서의 모비율 추정:
조건: , (정규 근사 성립)
2. 가설검정 (Hypothesis Testing)#
귀무가설과 대립가설#
| 내용 | |
|---|---|
| 귀무가설 | 효과 없음, 차이 없음 — "기본 가정" |
| 대립가설 | 우리가 증명하고자 하는 주장 |
예시:
- : 신약과 기존 약의 효과는 같다 ()
- : 신약이 더 효과적이다 ()
오류의 종류#
| 참 | 거짓 | |
|---|---|---|
| 기각 | 1종 오류 (False Positive) | 올바른 결정 |
| 채택 | 올바른 결정 | 2종 오류 (False Negative) |
- 1종 오류율 = 유의수준 (보통 0.05)
- 2종 오류율 =
- 검정력(Power) = (참인 을 맞게 기각할 확률)
유의수준 (Significance Level)#
는 1종 오류를 허용하는 최대 확률입니다.
- : 귀무가설이 참일 때 5% 확률로 잘못 기각
- 를 낮추면 1종 오류 감소, 2종 오류 증가
단측검정 vs 양측검정#
| 검정 유형 | 기각역 위치 | |
|---|---|---|
| 우측 단측 | 오른쪽 꼬리 | |
| 좌측 단측 | 왼쪽 꼬리 | |
| 양측 | 양쪽 꼬리 |
양측검정에서는 를 양쪽에 나누어 각 꼬리에 를 할당합니다.
p값 (p-value)#
p값: 이 참일 때, 관측된 통계량 이상으로 극단적인 값이 나올 확률
주의: "p값이 작다" = "우연히 이런 결과가 나오기 어렵다" = 효과가 실재할 가능성이 높다
기각역과 임계값 (Critical Values)#
임계값(critical value): 에 해당하는 검정통계량의 경계값
검정통계량이 기각역(rejection region)에 속하면 을 기각합니다.
예: 양측검정, → 또는 이면 기각
검정력 (Power of a Test)#
검정력을 높이려면:
- 표본 크기 증가
- 증가 (1종 오류 허용을 늘림)
- 효과 크기(effect size)가 클수록 자연히 증가
3. t검정 (t-Tests)#
단일 표본 t검정#
하나의 표본 평균이 특정 값 과 다른지 검정합니다.
예: "이 반 학생들의 평균 점수가 70점인가?"
독립 이표본 t검정 (Two-Sample t-Test)#
두 독립 집단의 평균 차이를 검정합니다.
- 자유도: Welch 근사법 사용 (두 집단의 분산이 다를 때)
- :
이표본 비율 검정 (Two-Sample Proportion Test)#
두 집단의 비율 차이를 검정합니다.
여기서 는 합동 비율(pooled proportion):
대응 표본 t검정 (Paired t-Test)#
동일한 대상에서 전후 측정값 차이를 검정합니다.
예: 약 복용 전후 혈압 변화 — 각 환자가 자신의 대조군이 됨
4. A/B 테스트#
A/B 테스트는 이표본 검정의 실무 적용입니다.
절차:
- 설정: A와 B의 전환율은 같다
- 유의수준 설정 (보통 0.05)
- 충분한 표본 수집 (검정력 기반 표본 크기 계산)
- 검정통계량 계산
- p값 확인 → 기각 여부 결정
주의사항:
- 다중 비교 문제: 여러 지표를 동시에 테스트하면 1종 오류 증가 → Bonferroni 보정 등 필요
- 조기 종료 금지: 유의해 보인다고 실험을 일찍 멈추면 False Positive 급증
- 실용적 유의성 vs 통계적 유의성: p값이 작아도 효과 크기(effect size)가 작으면 의미 없을 수 있음
정리#
| 개념 | 핵심 |
|---|---|
| 신뢰구간 | — 모수의 범위 추정 |
| t분포 | 미지 시 사용, df = |
| p값 | 하에서 관측값 이상이 나올 확률 |
| 1종 오류 | — 참인 를 기각 |
| 2종 오류 | — 거짓인 를 채택 |
| 검정력 | — 효과를 감지할 능력 |
| 대응 t검정 | 같은 대상의 전후 비교 |
퀴즈#
Q1. 95% 신뢰구간의 올바른 해석은?
a) 모평균이 이 구간 안에 있을 확률이 95%이다 b) 동일 실험을 반복하면 약 95%의 구간이 모평균을 포함한다 c) 표본 평균이 이 구간 안에 있을 확률이 95%이다 d) 표본의 95%가 이 구간 안에 속한다
정답 보기
정답: b
신뢰구간은 "모수가 구간에 있을 확률"이 아닙니다. 모수는 고정된 값이고, 구간이 표본마다 달라집니다. 95% CI는 "이 절차로 구간을 만들면 100번 중 약 95번은 모수를 포함한다"는 의미입니다.
Q2. t분포를 z분포 대신 사용하는 이유는?
a) 표본이 정규분포를 따를 때 b) 모표준편차 를 알 수 없어 로 대체할 때 c) 표본 크기가 30 이상일 때 d) 이진 데이터를 분석할 때
정답 보기
정답: b
를 모르고 를 쓰면 추가 불확실성이 생깁니다. t분포는 이를 반영해 꼬리가 더 두꺼우며, 표본 크기가 커질수록 표준정규분포에 수렴합니다.
Q3. p값이 0.03이고 유의수준 일 때, 올바른 결론은?
a) 귀무가설을 채택한다 b) 대립가설이 거짓이다 c) 귀무가설을 기각한다 d) 결론을 내릴 수 없다
정답 보기
정답: c
p값(0.03) < (0.05)이므로 귀무가설을 기각합니다. 단, "귀무가설이 거짓임을 증명"한 것이 아니라 "현재 데이터와 귀무가설이 충분히 비일치함"을 의미합니다.
Q4. 대응 표본 t검정이 독립 이표본 t검정보다 적합한 상황은?
a) 두 집단의 표본 크기가 다를 때 b) 동일한 피험자에게 처치 전후 측정값을 비교할 때 c) 두 집단의 분산이 같을 때 d) 표본 크기가 클 때
정답 보기
정답: b
같은 피험자의 전후 측정값은 독립이 아닙니다. 차이()를 계산해 개인 간 변동을 제거하면 검정력이 높아집니다. 예: 동일 환자의 치료 전후 혈압 비교.
Q5. A/B 테스트에서 "조기 종료"가 문제인 이유는?
a) 표본 크기가 너무 커지기 때문에 b) 매 시점마다 검정하면 1종 오류율이 명목 보다 훨씬 커지기 때문에 c) t분포 대신 z분포를 써야 하기 때문에 d) 검정력이 낮아지기 때문에
정답 보기
정답: b
중간 결과를 계속 모니터링하며 유의하게 보일 때 멈추면 다중 검정 문제가 발생합니다. 실제 효과가 없어도 우연히 유의한 결과가 나올 확률이 를 훨씬 초과하게 됩니다.
다음 글에서는 정보이론(Information Theory) — 엔트로피, 크로스엔트로피, KL 발산 등 머신러닝 손실 함수의 수학적 기반을 다룰 예정입니다.
관련 포스트
확률·통계 실무 개념 과제: ML 현장에서 마주치는 추론 문제들
확률 기초, 베이즈 정리, 분포, MLE/MAP, 신뢰구간, 가설검정까지 — 머신러닝 실무 시나리오로 배우는 확률통계 개념 과제 모음입니다.
확률·통계 코딩 과제: Python으로 구현하는 ML 통계 도구
베이즈 업데이트, 분포 시뮬레이션, CLT 검증, MLE/MAP 구현, 신뢰구간, 가설검정, A/B 테스트 파이프라인까지 — 확률통계 1~4장을 코드로 구현합니다.
표본, MLE, MAP: 머신러닝 확률통계 3장
모집단과 표본, 대수의 법칙, 중심극한정리, 최대 우도 추정(MLE), 최대 사후 추정(MAP), 정규화까지 머신러닝 추정의 핵심을 정리했습니다.