확률·통계 실무 개념 과제: ML 현장에서 마주치는 추론 문제들

이 글은 확률통계 1~4장에서 다룬 개념들을 머신러닝·데이터 분석 실무 시나리오에 적용하는 연습 문제 모음입니다. 수식 암기보다 개념의 적용과 해석에 초점을 맞춥니다.

Part 1. 확률 기초와 베이즈 정리#

문제 1-1. 스팸 필터의 베이즈 정리#

이메일 스팸 필터를 설계합니다.

전체 이메일 중 스팸 비율: 20%
스팸 메일에 "무료"라는 단어가 포함될 확률: 60%
정상 메일에 "무료"가 포함될 확률: 5%

"무료"가 포함된 이메일이 실제로 스팸일 확률을 구하세요.

정답 보기

베이즈 정리 적용:

$P(\text{스팸} \mid \text{"무료"}) = \frac{P(\text{"무료"} \mid \text{스팸}) \cdot P(\text{스팸})}{P(\text{"무료"})}$

분모 계산 (전확률 공식):

$P(\text{"무료"}) = 0.6 \times 0.2 + 0.05 \times 0.8 = 0.12 + 0.04 = 0.16$

$P(\text{스팸} \mid \text{"무료"}) = \frac{0.6 \times 0.2}{0.16} = \frac{0.12}{0.16} = 0.75$

결론: "무료"가 포함된 이메일은 75% 확률로 스팸입니다. 사전확률(20%)이 사후확률(75%)으로 크게 업데이트되었습니다.

머신러닝 연결: Naive Bayes 분류기는 이 원리를 각 단어에 독립적으로 적용해 텍스트를 분류합니다.

문제 1-2. 조건부 독립과 인과관계 오해#

아이스크림 판매량과 익사 사고 건수가 강한 양의 상관관계를 보입니다. 다음 질문에 답하세요.

이 상관관계가 인과관계를 의미하는가?
이 현상을 확률론적으로 어떻게 설명하는가? (교란변수 개념 포함)
머신러닝 모델이 이런 상관관계를 학습하면 어떤 문제가 생기는가?

정답 보기

1. 아니오: 상관관계 ≠ 인과관계. 아이스크림이 익사를 유발하지 않습니다.

2. 교란변수(Confounding Variable): "여름 기온"이 공통 원인입니다.

$\text{기온} \rightarrow \text{아이스크림 판매량}$ $\text{기온} \rightarrow \text{수영 인구 증가} \rightarrow \text{익사 사고}$

기온을 통제(조건화)하면 두 변수는 독립입니다: $P(\text{익사} \mid \text{아이스크림}, \text{기온}) = P(\text{익사} \mid \text{기온})$

3. ML 문제점: 모델이 허위 상관관계를 학습하면 분포가 다른 테스트 데이터에서 실패합니다 (Distribution Shift). 예측은 할 수 있어도 인과적 개입(intervention)에 대한 추론은 틀립니다.

Part 2. 분포와 통계량#

문제 2-1. 왜도·첨도와 모델 선택#

다음 데이터의 분포 특성을 분석하고 적절한 모델을 제안하세요.

데이터셋	평균	중앙값	왜도	첨도(초과)
A (주택 가격)	5억	3.5억	2.1	5.3
B (시험 점수)	72	71	0.1	-0.3
C (클릭 수)	8	2	3.8	18.2

각 데이터에 대해: (1) 분포 형태 설명, (2) 평균 vs 중앙값 중 대표값 선택, (3) 적합한 확률 분포 제안

정답 보기

A (주택 가격): 왜도 양수 → 오른쪽 꼬리가 긴 우편포 분포. 평균이 중앙값보다 크게 높으므로 중앙값이 대표값으로 적합. 로그 변환 후 정규분포 또는 로그정규분포 모델링 권장.

B (시험 점수): 왜도 ≈ 0, 첨도 ≈ 0 → 거의 정규분포. 평균과 중앙값이 유사하므로 둘 다 사용 가능. 정규분포 직접 모델링 적합.

C (클릭 수): 왜도·첨도 모두 매우 큼 → 극단적인 우편포, 극단치(바이럴 콘텐츠 등) 다수. 중앙값 사용. 이산형이므로 음이항분포(Negative Binomial) 또는 파워로우 분포 검토.

문제 2-2. 공분산과 상관계수의 한계#

두 변수 X와 Y에 대한 다음 상황을 분석하세요.

상황 A: $\text{Cov}(X, Y) = 500$ , $\text{Var}(X) = 10000$ , $\text{Var}(Y) = 40000$
상황 B: $\text{Cov}(X, Y) = 100$ , $\text{Var}(X) = 100$ , $\text{Var}(Y) = 200$

각 상황의 피어슨 상관계수를 구하세요.
어느 상황이 더 강한 선형 관계인가요?
상관계수가 0이어도 두 변수가 관련될 수 있는 예시를 들어보세요.

정답 보기

1. 상관계수 계산:

$r_A = \frac{500}{\sqrt{10000 \times 40000}} = \frac{500}{20000} = 0.025$

$r_B = \frac{100}{\sqrt{100 \times 200}} = \frac{100}{141.4} \approx 0.707$

2. 상황 B가 훨씬 강한 선형 관계: 공분산 값만 보면 A가 크지만, 변수의 스케일이 달라 직접 비교가 불가합니다. 상관계수는 이를 정규화한 값입니다.

3. 상관계수 = 0이지만 관련된 예시: $Y = X^2$ , $X \sim U(-1, 1)$ . X와 Y는 명백히 관련되지만 선형 상관계수는 0입니다. → 상관계수는 선형 관계만 포착합니다. 비선형 관계는 MI(Mutual Information) 등으로 측정해야 합니다.

Part 3. 표본 추정과 MLE/MAP#

문제 3-1. 대수의 법칙과 CLT 구분#

다음 두 개념을 혼동하지 않도록 차이를 설명하고 각각의 ML 응용을 제시하세요.

대수의 법칙(LLN): 표본 크기가 커질수록 표본 평균이 모평균에 수렴
중심극한정리(CLT): 표본 크기가 충분히 크면 표본 평균의 분포가 정규분포에 근사

특히 "LLN이 성립해도 CLT가 성립하지 않는 경우"가 있는가? 이유는?

정답 보기

차이점:

	LLN	CLT
말하는 것	수렴 대상 (값)	수렴 분포 (모양)
조건	유한 기댓값	유한 분산
결과	$\bar{X}_n \to \mu$	$\bar{X}_n \sim N(\mu, \sigma^2/n)$

LLN 성립 + CLT 불성립 예시: 코시분포(Cauchy distribution). 기댓값이 정의되지 않아 LLN도 불성립. 하지만 더 일반적으로, 분산이 무한한 분포(예: 파레토 분포의 일부 파라미터)에서는 LLN은 성립하나 CLT는 불성립합니다.

ML 응용:

LLN → 미니배치 SGD의 이론적 근거: 충분한 배치면 전체 그래디언트를 근사
CLT → 앙상블 예측의 불확실성 추정, 가설검정에서 검정통계량의 분포 가정

문제 3-2. MLE vs MAP — 과적합 관점#

동전 던지기를 10번 해서 8번 앞면이 나왔습니다. $\theta$ = 앞면이 나올 확률을 추정합니다.

MLE로 $\hat{\theta}$ 를 구하세요.
$\text{Beta}(3, 3)$ 사전 분포를 사용한 MAP 추정값을 구하세요.
두 결과를 비교하고, 데이터가 적을 때 MAP가 왜 더 나은 추정인지 설명하세요.

정답 보기

1. MLE: 이항 분포의 로그 우도를 최대화하면:

$\hat{\theta}_\text{MLE} = \frac{8}{10} = 0.8$

2. MAP with Beta(3,3): 사후 분포는 $\text{Beta}(3+8, 3+2) = \text{Beta}(11, 5)$

$\hat{\theta}_\text{MAP} = \frac{\alpha - 1}{\alpha + \beta - 2} = \frac{10}{14} \approx 0.714$

3. 비교:

	MLE	MAP
추정값	0.8	0.714
사전 지식	무시	반영 (0.5 방향으로 당김)
데이터 적을 때	과적합 위험	정규화 효과
데이터 많을 때	MLE ≈ MAP	사전 영향 희석

데이터가 적으면 MLE는 우연한 결과(8/10)를 과도하게 신뢰합니다. MAP의 사전 분포는 "0.5 근방일 것"이라는 합리적 믿음을 반영해 추정을 안정화합니다. 이는 L2 정규화와 수학적으로 동일합니다.

Part 4. 신뢰구간과 가설검정#

문제 4-1. CI 해석의 흔한 오해#

모델 정확도를 100번 실험했을 때 95% CI가 $[0.82, 0.88]$ 로 계산되었습니다. 다음 중 올바른 해석을 고르고, 나머지가 왜 틀렸는지 설명하세요.

a) "모델의 실제 정확도가 이 구간 안에 있을 확률이 95%이다." b) "이 절차로 CI를 반복 생성하면, 약 95번은 실제 정확도를 포함한다." c) "표본의 95%가 이 구간 안에 속한다." d) "다음 실험의 정확도가 이 구간 안에 있을 확률이 95%이다."

정답 보기

정답: b

a가 틀린 이유: 모수(실제 정확도)는 고정된 값 — 확률이 아닙니다. 구간이 변하는 것입니다.

c가 틀린 이유: CI는 모수의 범위이지, 개별 데이터의 분포 범위(예측구간)가 아닙니다.

d가 틀린 이유: 예측구간(Prediction Interval)의 개념과 혼동하고 있습니다. CI는 모수 추정 범위이고, 예측구간은 새 관측값의 범위입니다. (예측구간이 항상 CI보다 넓습니다.)

문제 4-2. 가설검정 설계와 오류 트레이드오프#

신약 임상시험: 신약과 위약 그룹의 회복률 차이를 검정합니다.

$H_0$ , $H_1$ 을 설정하고 단측/양측 검정 여부를 결정하세요.
의료 맥락에서 1종 오류와 2종 오류 중 어느 것이 더 심각한가요?
검정력(Power)을 높이려면 어떤 방법이 있나요? (3가지 이상)

정답 보기

1. 가설 설정:

$H_0$ : $p_\text{신약} \leq p_\text{위약}$ (효과 없거나 해로움)
$H_1$ : $p_\text{신약} > p_\text{위약}$ (효과 있음)
방향이 명확(신약이 더 좋기를 기대)하므로 우측 단측 검정

2. 2종 오류(False Negative)가 더 심각: 효과 있는 신약을 "효과 없음"으로 판정하면 치료 기회를 잃습니다. 반면 1종 오류는 추가 임상으로 확인할 수 있습니다. (단, 부작용이 심각하다면 1종 오류도 중요해집니다.)

3. 검정력 향상 방법:

표본 크기 증가: 가장 직접적. $n$ ↑ → SE↓ → 차이 감지 민감도↑
유의수준 $\alpha$ 완화: $\alpha$ 크게 하면 기각역 확대 → 검정력↑ (단, 1종 오류↑)
단측 검정 사용: 양측 대신 단측으로 바꾸면 검정력 증가
효과 크기 큰 집단 선택: 처치 효과가 클 것으로 예상되는 하위 집단 대상
측정 오차 감소: 더 정밀한 측정으로 분산↓ → SE↓

문제 4-3. 어떤 검정을 써야 할까?#

다음 시나리오별로 적절한 검정 방법을 선택하고 이유를 설명하세요.

추천 모델 적용 전후 동일 사용자 50명의 세션 시간 비교
버튼 색상 A/B 테스트 — 각 그룹 1000명, 결과는 클릭(이진)
새 정규화 방법이 기존 논문의 기준 정확도(89.3%)보다 높은지 검정
한국/미국/일본 세 지역 사용자의 평균 구매액 차이

정답 보기

1. 대응표본 t검정: 동일 사용자의 전후 측정 → 쌍(pair) 데이터. 개인 차이를 제거해 검정력 향상.

2. 이표본 비율 검정 (z검정): 결과가 이진(클릭/비클릭) → 비율 비교. 연속형 평균 비교가 아님.

3. 단일표본 t검정: 우리 모델의 표본 정확도를 알려진 단일 값(89.3%)과 비교.

4. 일원 분산분석 (One-Way ANOVA): 3개 이상 그룹의 평균 비교에는 t검정을 반복하면 다중 비교 문제 발생 → ANOVA 사용. 사후 검정(Tukey HSD 등)으로 어느 쌍이 다른지 확인.

Part 5. 종합 시나리오#

문제 5-1. ML 파이프라인의 통계적 의사결정#

신규 딥러닝 모델을 프로덕션에 배포할지 결정하는 과정을 설계하세요. 다음 질문에 모두 답하세요.

오프라인 평가: 테스트 셋 정확도가 92.1%이고, 95% CI가 [91.3%, 92.9%]일 때, 기존 모델(91.5%)보다 낫다고 할 수 있는가?
온라인 A/B 테스트: 유의수준 $\alpha=0.05$ , 검정력 $1-\beta=0.80$ , 최소 감지 효과 1%p로 계산된 표본 수만큼만 모으기로 한다. 이 숫자를 사전에 정해야 하는 이유는?
A/B 결과 p값이 0.03으로 나왔다. "신모델이 이길 확률이 97%"라는 표현이 왜 틀렸는가?

정답 보기

1. CI 해석: 기존 모델 91.5%가 신모델 CI [91.3%, 92.9%] 안에 있습니다. 즉, 두 모델의 차이가 통계적으로 유의하지 않을 수 있습니다. 단정적으로 "낫다"고 할 수 없습니다. → 가설검정 또는 차이의 CI를 별도로 계산해야 합니다.

2. 표본 수 사전 확정 이유: 중간에 결과를 보고 종료하면 다중 비교 문제로 1종 오류율이 명목 5%를 훨씬 초과합니다. 사전에 정한 표본 수에 도달할 때까지만 실험 = 단일 검정 보장.

3. p값 오해: p값 0.03은 "귀무가설이 참일 때 이런 결과가 나올 확률이 3%"입니다. 이는 귀무가설의 확률이 아닙니다. "신모델이 이길 확률 97%"는 사후확률(posterior probability)로, 베이즈 통계에서 사전 분포를 정의해야만 계산할 수 있습니다. 빈도주의 p값으로는 이런 표현이 불가능합니다.

다음 글에서는 이 개념들을 Python/scipy로 직접 구현하는 코딩 과제를 다룹니다. → 코딩 과제 보기

확률·통계 실무 개념 과제: ML 현장에서 마주치는 추론 문제들

Part 1. 확률 기초와 베이즈 정리#

문제 1-1. 스팸 필터의 베이즈 정리#

문제 1-2. 조건부 독립과 인과관계 오해#

Part 2. 분포와 통계량#

문제 2-1. 왜도·첨도와 모델 선택#

문제 2-2. 공분산과 상관계수의 한계#

Part 3. 표본 추정과 MLE/MAP#

문제 3-1. 대수의 법칙과 CLT 구분#

문제 3-2. MLE vs MAP — 과적합 관점#

Part 4. 신뢰구간과 가설검정#

문제 4-1. CI 해석의 흔한 오해#

문제 4-2. 가설검정 설계와 오류 트레이드오프#

문제 4-3. 어떤 검정을 써야 할까?#

Part 5. 종합 시나리오#

문제 5-1. ML 파이프라인의 통계적 의사결정#

관련 포스트

확률·통계 코딩 과제: Python으로 구현하는 ML 통계 도구

신뢰구간과 가설검정: 머신러닝 확률통계 4장

표본, MLE, MAP: 머신러닝 확률통계 3장