확률·통계 실무 개념 과제: ML 현장에서 마주치는 추론 문제들
이 글은 확률통계 1~4장에서 다룬 개념들을 머신러닝·데이터 분석 실무 시나리오에 적용하는 연습 문제 모음입니다. 수식 암기보다 개념의 적용과 해석에 초점을 맞춥니다.
Part 1. 확률 기초와 베이즈 정리#
문제 1-1. 스팸 필터의 베이즈 정리#
이메일 스팸 필터를 설계합니다.
- 전체 이메일 중 스팸 비율: 20%
- 스팸 메일에 "무료"라는 단어가 포함될 확률: 60%
- 정상 메일에 "무료"가 포함될 확률: 5%
"무료"가 포함된 이메일이 실제로 스팸일 확률을 구하세요.
정답 보기
베이즈 정리 적용:
분모 계산 (전확률 공식):
결론: "무료"가 포함된 이메일은 75% 확률로 스팸입니다. 사전확률(20%)이 사후확률(75%)으로 크게 업데이트되었습니다.
머신러닝 연결: Naive Bayes 분류기는 이 원리를 각 단어에 독립적으로 적용해 텍스트를 분류합니다.
문제 1-2. 조건부 독립과 인과관계 오해#
아이스크림 판매량과 익사 사고 건수가 강한 양의 상관관계를 보입니다. 다음 질문에 답하세요.
- 이 상관관계가 인과관계를 의미하는가?
- 이 현상을 확률론적으로 어떻게 설명하는가? (교란변수 개념 포함)
- 머신러닝 모델이 이런 상관관계를 학습하면 어떤 문제가 생기는가?
정답 보기
1. 아니오: 상관관계 ≠ 인과관계. 아이스크림이 익사를 유발하지 않습니다.
2. 교란변수(Confounding Variable): "여름 기온"이 공통 원인입니다.
기온을 통제(조건화)하면 두 변수는 독립입니다:
3. ML 문제점: 모델이 허위 상관관계를 학습하면 분포가 다른 테스트 데이터에서 실패합니다 (Distribution Shift). 예측은 할 수 있어도 인과적 개입(intervention)에 대한 추론은 틀립니다.
Part 2. 분포와 통계량#
문제 2-1. 왜도·첨도와 모델 선택#
다음 데이터의 분포 특성을 분석하고 적절한 모델을 제안하세요.
| 데이터셋 | 평균 | 중앙값 | 왜도 | 첨도(초과) |
|---|---|---|---|---|
| A (주택 가격) | 5억 | 3.5억 | 2.1 | 5.3 |
| B (시험 점수) | 72 | 71 | 0.1 | -0.3 |
| C (클릭 수) | 8 | 2 | 3.8 | 18.2 |
각 데이터에 대해: (1) 분포 형태 설명, (2) 평균 vs 중앙값 중 대표값 선택, (3) 적합한 확률 분포 제안
정답 보기
A (주택 가격): 왜도 양수 → 오른쪽 꼬리가 긴 우편포 분포. 평균이 중앙값보다 크게 높으므로 중앙값이 대표값으로 적합. 로그 변환 후 정규분포 또는 로그정규분포 모델링 권장.
B (시험 점수): 왜도 ≈ 0, 첨도 ≈ 0 → 거의 정규분포. 평균과 중앙값이 유사하므로 둘 다 사용 가능. 정규분포 직접 모델링 적합.
C (클릭 수): 왜도·첨도 모두 매우 큼 → 극단적인 우편포, 극단치(바이럴 콘텐츠 등) 다수. 중앙값 사용. 이산형이므로 음이항분포(Negative Binomial) 또는 파워로우 분포 검토.
문제 2-2. 공분산과 상관계수의 한계#
두 변수 X와 Y에 대한 다음 상황을 분석하세요.
- 상황 A: , ,
- 상황 B: , ,
- 각 상황의 피어슨 상관계수를 구하세요.
- 어느 상황이 더 강한 선형 관계인가요?
- 상관계수가 0이어도 두 변수가 관련될 수 있는 예시를 들어보세요.
정답 보기
1. 상관계수 계산:
2. 상황 B가 훨씬 강한 선형 관계: 공분산 값만 보면 A가 크지만, 변수의 스케일이 달라 직접 비교가 불가합니다. 상관계수는 이를 정규화한 값입니다.
3. 상관계수 = 0이지만 관련된 예시: , . X와 Y는 명백히 관련되지만 선형 상관계수는 0입니다. → 상관계수는 선형 관계만 포착합니다. 비선형 관계는 MI(Mutual Information) 등으로 측정해야 합니다.
Part 3. 표본 추정과 MLE/MAP#
문제 3-1. 대수의 법칙과 CLT 구분#
다음 두 개념을 혼동하지 않도록 차이를 설명하고 각각의 ML 응용을 제시하세요.
- 대수의 법칙(LLN): 표본 크기가 커질수록 표본 평균이 모평균에 수렴
- 중심극한정리(CLT): 표본 크기가 충분히 크면 표본 평균의 분포가 정규분포에 근사
특히 "LLN이 성립해도 CLT가 성립하지 않는 경우"가 있는가? 이유는?
정답 보기
차이점:
| LLN | CLT | |
|---|---|---|
| 말하는 것 | 수렴 대상 (값) | 수렴 분포 (모양) |
| 조건 | 유한 기댓값 | 유한 분산 |
| 결과 |
LLN 성립 + CLT 불성립 예시: 코시분포(Cauchy distribution). 기댓값이 정의되지 않아 LLN도 불성립. 하지만 더 일반적으로, 분산이 무한한 분포(예: 파레토 분포의 일부 파라미터)에서는 LLN은 성립하나 CLT는 불성립합니다.
ML 응용:
- LLN → 미니배치 SGD의 이론적 근거: 충분한 배치면 전체 그래디언트를 근사
- CLT → 앙상블 예측의 불확실성 추정, 가설검정에서 검정통계량의 분포 가정
문제 3-2. MLE vs MAP — 과적합 관점#
동전 던지기를 10번 해서 8번 앞면이 나왔습니다. = 앞면이 나올 확률을 추정합니다.
- MLE로 를 구하세요.
- 사전 분포를 사용한 MAP 추정값을 구하세요.
- 두 결과를 비교하고, 데이터가 적을 때 MAP가 왜 더 나은 추정인지 설명하세요.
정답 보기
1. MLE: 이항 분포의 로그 우도를 최대화하면:
2. MAP with Beta(3,3): 사후 분포는
3. 비교:
| MLE | MAP | |
|---|---|---|
| 추정값 | 0.8 | 0.714 |
| 사전 지식 | 무시 | 반영 (0.5 방향으로 당김) |
| 데이터 적을 때 | 과적합 위험 | 정규화 효과 |
| 데이터 많을 때 | MLE ≈ MAP | 사전 영향 희석 |
데이터가 적으면 MLE는 우연한 결과(8/10)를 과도하게 신뢰합니다. MAP의 사전 분포는 "0.5 근방일 것"이라는 합리적 믿음을 반영해 추정을 안정화합니다. 이는 L2 정규화와 수학적으로 동일합니다.
Part 4. 신뢰구간과 가설검정#
문제 4-1. CI 해석의 흔한 오해#
모델 정확도를 100번 실험했을 때 95% CI가 로 계산되었습니다. 다음 중 올바른 해석을 고르고, 나머지가 왜 틀렸는지 설명하세요.
a) "모델의 실제 정확도가 이 구간 안에 있을 확률이 95%이다." b) "이 절차로 CI를 반복 생성하면, 약 95번은 실제 정확도를 포함한다." c) "표본의 95%가 이 구간 안에 속한다." d) "다음 실험의 정확도가 이 구간 안에 있을 확률이 95%이다."
정답 보기
정답: b
a가 틀린 이유: 모수(실제 정확도)는 고정된 값 — 확률이 아닙니다. 구간이 변하는 것입니다.
c가 틀린 이유: CI는 모수의 범위이지, 개별 데이터의 분포 범위(예측구간)가 아닙니다.
d가 틀린 이유: 예측구간(Prediction Interval)의 개념과 혼동하고 있습니다. CI는 모수 추정 범위이고, 예측구간은 새 관측값의 범위입니다. (예측구간이 항상 CI보다 넓습니다.)
문제 4-2. 가설검정 설계와 오류 트레이드오프#
신약 임상시험: 신약과 위약 그룹의 회복률 차이를 검정합니다.
- , 을 설정하고 단측/양측 검정 여부를 결정하세요.
- 의료 맥락에서 1종 오류와 2종 오류 중 어느 것이 더 심각한가요?
- 검정력(Power)을 높이려면 어떤 방법이 있나요? (3가지 이상)
정답 보기
1. 가설 설정:
- : (효과 없거나 해로움)
- : (효과 있음)
- 방향이 명확(신약이 더 좋기를 기대)하므로 우측 단측 검정
2. 2종 오류(False Negative)가 더 심각: 효과 있는 신약을 "효과 없음"으로 판정하면 치료 기회를 잃습니다. 반면 1종 오류는 추가 임상으로 확인할 수 있습니다. (단, 부작용이 심각하다면 1종 오류도 중요해집니다.)
3. 검정력 향상 방법:
- 표본 크기 증가: 가장 직접적. ↑ → SE↓ → 차이 감지 민감도↑
- 유의수준 완화: 크게 하면 기각역 확대 → 검정력↑ (단, 1종 오류↑)
- 단측 검정 사용: 양측 대신 단측으로 바꾸면 검정력 증가
- 효과 크기 큰 집단 선택: 처치 효과가 클 것으로 예상되는 하위 집단 대상
- 측정 오차 감소: 더 정밀한 측정으로 분산↓ → SE↓
문제 4-3. 어떤 검정을 써야 할까?#
다음 시나리오별로 적절한 검정 방법을 선택하고 이유를 설명하세요.
- 추천 모델 적용 전후 동일 사용자 50명의 세션 시간 비교
- 버튼 색상 A/B 테스트 — 각 그룹 1000명, 결과는 클릭(이진)
- 새 정규화 방법이 기존 논문의 기준 정확도(89.3%)보다 높은지 검정
- 한국/미국/일본 세 지역 사용자의 평균 구매액 차이
정답 보기
1. 대응표본 t검정: 동일 사용자의 전후 측정 → 쌍(pair) 데이터. 개인 차이를 제거해 검정력 향상.
2. 이표본 비율 검정 (z검정): 결과가 이진(클릭/비클릭) → 비율 비교. 연속형 평균 비교가 아님.
3. 단일표본 t검정: 우리 모델의 표본 정확도를 알려진 단일 값(89.3%)과 비교.
4. 일원 분산분석 (One-Way ANOVA): 3개 이상 그룹의 평균 비교에는 t검정을 반복하면 다중 비교 문제 발생 → ANOVA 사용. 사후 검정(Tukey HSD 등)으로 어느 쌍이 다른지 확인.
Part 5. 종합 시나리오#
문제 5-1. ML 파이프라인의 통계적 의사결정#
신규 딥러닝 모델을 프로덕션에 배포할지 결정하는 과정을 설계하세요. 다음 질문에 모두 답하세요.
- 오프라인 평가: 테스트 셋 정확도가 92.1%이고, 95% CI가 [91.3%, 92.9%]일 때, 기존 모델(91.5%)보다 낫다고 할 수 있는가?
- 온라인 A/B 테스트: 유의수준 , 검정력 , 최소 감지 효과 1%p로 계산된 표본 수만큼만 모으기로 한다. 이 숫자를 사전에 정해야 하는 이유는?
- A/B 결과 p값이 0.03으로 나왔다. "신모델이 이길 확률이 97%"라는 표현이 왜 틀렸는가?
정답 보기
1. CI 해석: 기존 모델 91.5%가 신모델 CI [91.3%, 92.9%] 안에 있습니다. 즉, 두 모델의 차이가 통계적으로 유의하지 않을 수 있습니다. 단정적으로 "낫다"고 할 수 없습니다. → 가설검정 또는 차이의 CI를 별도로 계산해야 합니다.
2. 표본 수 사전 확정 이유: 중간에 결과를 보고 종료하면 다중 비교 문제로 1종 오류율이 명목 5%를 훨씬 초과합니다. 사전에 정한 표본 수에 도달할 때까지만 실험 = 단일 검정 보장.
3. p값 오해: p값 0.03은 "귀무가설이 참일 때 이런 결과가 나올 확률이 3%"입니다. 이는 귀무가설의 확률이 아닙니다. "신모델이 이길 확률 97%"는 사후확률(posterior probability)로, 베이즈 통계에서 사전 분포를 정의해야만 계산할 수 있습니다. 빈도주의 p값으로는 이런 표현이 불가능합니다.
다음 글에서는 이 개념들을 Python/scipy로 직접 구현하는 코딩 과제를 다룹니다. → 코딩 과제 보기
관련 포스트
확률·통계 코딩 과제: Python으로 구현하는 ML 통계 도구
베이즈 업데이트, 분포 시뮬레이션, CLT 검증, MLE/MAP 구현, 신뢰구간, 가설검정, A/B 테스트 파이프라인까지 — 확률통계 1~4장을 코드로 구현합니다.
신뢰구간과 가설검정: 머신러닝 확률통계 4장
신뢰구간의 개념과 계산, t분포, 가설검정의 원리(귀무/대립가설, p값, 기각역, 검정력), 다양한 t검정과 A/B 테스트까지 정리했습니다.
표본, MLE, MAP: 머신러닝 확률통계 3장
모집단과 표본, 대수의 법칙, 중심극한정리, 최대 우도 추정(MLE), 최대 사후 추정(MAP), 정규화까지 머신러닝 추정의 핵심을 정리했습니다.