신뢰구간과 가설검정: 머신러닝 확률통계 4장

개념	핵심
신뢰구간	$\bar{x} \pm z^* \cdot SE$ — 모수의 범위 추정
t분포	$\sigma$ 미지 시 사용, df = $n-1$
p값	$H_0$ 하에서 관측값 이상이 나올 확률
1종 오류	$\alpha$ — 참인 $H_0$ 를 기각
2종 오류	$\beta$ — 거짓인 $H_0$ 를 채택
검정력	$1 - \beta$ — 효과를 감지할 능력
대응 t검정	같은 대상의 전후 비교

퀴즈#

Q1. 95% 신뢰구간의 올바른 해석은?

a) 모평균이 이 구간 안에 있을 확률이 95%이다 b) 동일 실험을 반복하면 약 95%의 구간이 모평균을 포함한다 c) 표본 평균이 이 구간 안에 있을 확률이 95%이다 d) 표본의 95%가 이 구간 안에 속한다

정답 보기

정답: b

신뢰구간은 "모수가 구간에 있을 확률"이 아닙니다. 모수는 고정된 값이고, 구간이 표본마다 달라집니다. 95% CI는 "이 절차로 구간을 만들면 100번 중 약 95번은 모수를 포함한다"는 의미입니다.

Q2. t분포를 z분포 대신 사용하는 이유는?

a) 표본이 정규분포를 따를 때 b) 모표준편차 $\sigma$ 를 알 수 없어 $s$ 로 대체할 때 c) 표본 크기가 30 이상일 때 d) 이진 데이터를 분석할 때

정답 보기

정답: b

$\sigma$ 를 모르고 $s$ 를 쓰면 추가 불확실성이 생깁니다. t분포는 이를 반영해 꼬리가 더 두꺼우며, 표본 크기가 커질수록 표준정규분포에 수렴합니다.

Q3. p값이 0.03이고 유의수준 $\alpha = 0.05$ 일 때, 올바른 결론은?

a) 귀무가설을 채택한다 b) 대립가설이 거짓이다 c) 귀무가설을 기각한다 d) 결론을 내릴 수 없다

정답 보기

정답: c

p값(0.03) < $\alpha$ (0.05)이므로 귀무가설을 기각합니다. 단, "귀무가설이 거짓임을 증명"한 것이 아니라 "현재 데이터와 귀무가설이 충분히 비일치함"을 의미합니다.

Q4. 대응 표본 t검정이 독립 이표본 t검정보다 적합한 상황은?

a) 두 집단의 표본 크기가 다를 때 b) 동일한 피험자에게 처치 전후 측정값을 비교할 때 c) 두 집단의 분산이 같을 때 d) 표본 크기가 클 때

정답 보기

정답: b

같은 피험자의 전후 측정값은 독립이 아닙니다. 차이( $d_i$ )를 계산해 개인 간 변동을 제거하면 검정력이 높아집니다. 예: 동일 환자의 치료 전후 혈압 비교.

Q5. A/B 테스트에서 "조기 종료"가 문제인 이유는?

a) 표본 크기가 너무 커지기 때문에 b) 매 시점마다 검정하면 1종 오류율이 명목 $\alpha$ 보다 훨씬 커지기 때문에 c) t분포 대신 z분포를 써야 하기 때문에 d) 검정력이 낮아지기 때문에

정답 보기

정답: b

중간 결과를 계속 모니터링하며 유의하게 보일 때 멈추면 다중 검정 문제가 발생합니다. 실제 효과가 없어도 우연히 유의한 결과가 나올 확률이 $\alpha$ 를 훨씬 초과하게 됩니다.

다음 글에서는 정보이론(Information Theory) — 엔트로피, 크로스엔트로피, KL 발산 등 머신러닝 손실 함수의 수학적 기반을 다룰 예정입니다.

신뢰구간과 가설검정: 머신러닝 확률통계 4장

1. 신뢰구간 (Confidence Intervals)#

신뢰구간이란?#

오차 한계 (Margin of Error)#

모표준편차를 모를 때 — t분포#

비율의 신뢰구간#

2. 가설검정 (Hypothesis Testing)#

귀무가설과 대립가설#

오류의 종류#

유의수준 (Significance Level)#

단측검정 vs 양측검정#

p값 (p-value)#

기각역과 임계값 (Critical Values)#

검정력 (Power of a Test)#

3. t검정 (t-Tests)#

단일 표본 t검정#

독립 이표본 t검정 (Two-Sample t-Test)#

이표본 비율 검정 (Two-Sample Proportion Test)#

대응 표본 t검정 (Paired t-Test)#

4. A/B 테스트#

정리#

퀴즈#

관련 포스트

확률·통계 실무 개념 과제: ML 현장에서 마주치는 추론 문제들

확률·통계 코딩 과제: Python으로 구현하는 ML 통계 도구

표본, MLE, MAP: 머신러닝 확률통계 3장