확률의 기초와 확률 분포: 머신러닝 확률통계 1장
이번 글부터는 확률과 통계(Probability & Statistics) 시리즈를 시작합니다. 머신러닝 모델은 본질적으로 불확실성을 다루는 도구입니다. 예측에 담긴 불확실성을 수치로 표현하고, 데이터로부터 추론하며, 모델 성능을 평가하는 모든 과정에 확률·통계가 깔려 있습니다.
이 글은 DeepLearning.AI의 Mathematics for Machine Learning and Data Science — Probability & Statistics 1주차 내용을 기반으로 정리했습니다.
이번 글에서 배우는 것#
- 확률의 기초 — 사건, 표본공간, 여사건
- 합의 법칙 — 독립 사건 vs 결합 사건
- 독립성 — 곱의 법칙
- 조건부 확률 — 사건이 주어졌을 때의 확률
- 베이즈 정리 — 사전확률과 사후확률
- 확률 변수와 분포 — 이산·연속 분포
- 주요 분포 — 이항, 베르누이, 균등, 정규, 카이제곱
확률의 기초#
확률이란?#
확률(Probability) 은 어떤 사건이 일어날 가능성을 0과 1 사이의 수로 표현한 것입니다.
예시
- 10명 중 3명이 축구를 한다면:
- 6면 주사위에서 6이 나올 확률:
- 동전 2번 던져 모두 앞면:
실험(Experiment): 불확실한 결과를 내는 모든 과정
표본공간(Sample Space): 가능한 모든 결과의 집합
여사건 (Complement)#
사건 가 일어나지 않을 확률:
| 예시 | 계산 |
|---|---|
| 축구를 하지 않을 확률 | |
| 주사위에서 6이 안 나올 확률 | |
| 동전 3번 모두 앞면이 아닐 확률 |
활용: 직접 구하기 어려운 확률은 여사건을 통해 구하면 쉽습니다.
합의 법칙 — 독립 사건 (Disjoint Events)#
독립 사건(Disjoint / Mutually Exclusive): 동시에 발생할 수 없는 사건들.
예시
- 주사위에서 짝수 또는 5가 나올 확률: , →
합의 법칙 — 결합 사건 (Joint Events)#
결합 사건(Joint Events): 두 사건이 겹칠 수 있는 경우. 교집합을 빼야 합니다.
예시 — 축구(0.6), 농구(0.5), 둘 다(0.3):
핵심: 두 사건이 독립(disjoint)인지 결합(joint)인지를 먼저 파악해야 합니다. 정보가 없으면 교집합을 알 수 없으므로 확률을 구할 수 없습니다.
독립성 (Independence)#
두 사건 , 가 독립이면 한 사건의 발생이 다른 사건의 확률에 영향을 주지 않습니다.
예시
- 동전을 5번 던져 모두 앞면:
- 주사위를 10번 던져 모두 6:
독립성 가정은 계산을 크게 단순화합니다. 나이브 베이즈 분류기가 이 가정에 기반합니다.
생일 문제 (Birthday Problem)#
30명이 있을 때 적어도 2명의 생일이 같을 확률은?
직관적으로 낮아 보이지만, 실제로는 70% 이상입니다.
여사건으로 계산:
교훈: 확률에 대한 직관은 종종 틀립니다. 수식으로 직접 계산하는 것이 중요합니다.
조건부 확률 (Conditional Probability)#
개념#
조건부 확률: 사건 가 이미 발생했을 때 사건 가 발생할 확률.
표기법: ("B가 주어졌을 때 A의 확률")
예시 — 동전 2번:
- = (첫 번째가 H면 두 번째만 H이면 됨)
- = 0 (첫 번째가 T면 HH 불가능)
곱의 법칙 (Product Rule)#
독립이 아닌 사건에서 교집합 확률:
예시 — 축구를 하는 학생(40%) 중 80%가 런닝화를 신는다면:
랜덤(독립) vs 비랜덤(종속): 사건들이 관련되어 있으면 종속 사건이고, 조건부 확률을 써야 합니다.
베이즈 정리 (Bayes' Theorem)#
수식#
| 용어 | 의미 |
|---|---|
| 사전확률 (Prior) — 아무 정보 없이 알고 있는 기본 확률 | |
| 사후확률 (Posterior) — 추가 정보 를 반영한 갱신된 확률 | |
| 우도 (Likelihood) — A가 주어졌을 때 B가 관측될 확률 | |
| 증거 (Evidence) — B가 관측될 전체 확률 |
스팸 메일 예시#
- 이메일 중 20%가 스팸:
- 스팸 메일의 40%에 "lottery" 포함:
- 전체 메일의 10%에 "lottery" 포함:
"lottery"가 포함된 메일이 스팸일 확률은 80%. 사전확률 20%에서 80%로 크게 갱신됩니다.
나이브 베이즈 (Naive Bayes)#
여러 피처가 있을 때 모든 피처가 독립이라고 가정하면:
나이브(Naive) 한 이유: 현실에서 피처들은 완전 독립이 아니지만, 이 가정 덕분에:
- 계산이 매우 단순해짐
- 데이터가 적어도 잘 작동
- 텍스트 분류(스팸 필터)에서 특히 효과적
확률 변수와 확률 분포#
확률 변수 (Random Variable)#
확률 변수: 실험의 결과를 숫자로 나타내는 변수.
| 유형 | 설명 | 예시 |
|---|---|---|
| 이산형 (Discrete) | 셀 수 있는 유한한 값 | 동전 앞면 횟수, 주사위 눈 |
| 연속형 (Continuous) | 구간 내 무한한 값 | 키, 온도, 대기 시간 |
이산 확률 분포#
이항 분포 (Binomial Distribution)#
번 독립 시행에서 성공 확률이 일 때, 정확히 번 성공할 확률:
이항 계수 (Binomial Coefficient):
개 중 순서 없이 개를 뽑는 경우의 수.
예시 — 주사위를 5번 던져 1이 정확히 3번 나올 확률:
성질:
- → 대칭적인 분포
- → 한쪽으로 치우친 분포
- 이 커지면 정규 분포에 수렴
베르누이 분포 (Bernoulli Distribution)#
이항 분포의 특수 경우 (). 성공/실패 두 가지 결과만 있는 단일 시행.
예시: 4면 주사위에서 2가 나올 확률 →
베르누이 분포 = 이항 분포
연속 확률 분포#
확률 밀도 함수 (PDF)#
연속 확률 변수에서는 특정 값의 확률 = 0 (점의 면적 = 0). 대신 구간의 확률을 구합니다.
: 확률 밀도 함수 (Probability Density Function)
성질:
- (전체 면적 = 1)
이산: PMF (확률 질량 함수) ↔ 연속: PDF (확률 밀도 함수)
누적 분포 함수 (CDF)#
성질:
- 항상 0에서 시작, 1에서 끝남
- 단조 증가 (절대 감소하지 않음)
- 이산: 계단 모양 / 연속: 부드러운 곡선
CDF를 활용하면 분포에서 샘플링이 쉬워집니다. 균등 분포에서 값을 뽑아 CDF 역함수를 적용하면 원하는 분포에서의 샘플을 얻습니다.
균등 분포 (Uniform Distribution)#
구간 내 모든 값이 동일한 확률을 가지는 분포.
파라미터: (시작), (끝)
예시: 전화 대기 시간이 0~5분 사이 균등 분포 →
정규 분포 (Normal / Gaussian Distribution)#
머신러닝에서 가장 많이 쓰이는 분포. 자연 현상(키, 측정 오차 등)에 자주 등장합니다.
파라미터:
- (뮤): 평균 — 분포의 위치 결정
- (시그마): 표준편차 — 분포의 너비 결정
표준 정규 분포: , →
표준화 (Standardization):
서로 다른 단위와 범위의 변수를 비교할 때 사용합니다. 머신러닝에서 피처 스케일링의 이론적 근거입니다.
68-95-99.7 법칙:
- 내에 약 68% 데이터
- 내에 약 95% 데이터
- 내에 약 99.7% 데이터
카이제곱 분포 (Chi-Squared Distribution)#
개의 독립적인 표준 정규 변수 를 제곱해 합한 분포:
파라미터: (자유도, degrees of freedom)
성질:
- 가 작으면 0 근처에 집중, 오른쪽으로 치우침
- 가 커지면 더 넓게 퍼지고 대칭에 가까워짐
머신러닝 활용:
- 가설 검정 (독립성 검정, 적합도 검정)
- 신호 노이즈 모델링 (노이즈 제곱의 합)
핵심 정리#
| 개념 | 공식 / 설명 |
|---|---|
| 기본 확률 | |
| 여사건 | |
| 독립 사건 합 | |
| 결합 사건 합 | |
| 독립 곱 | |
| 조건부 확률 | |
| 베이즈 정리 | |
| 이항 분포 | |
| 정규 분포 |
퀴즈#
Q1. 공정한 동전을 2번 던질 때 앞면과 뒷면이 순서 무관하게 하나씩 나올 확률은?
정답 보기
가능한 결과: HH, HT, TH, TT (4가지)
앞면·뒷면이 하나씩인 경우: HT, TH (2가지)
Q2. 두 주사위를 던졌을 때 합이 10이 될 확률은?
정답 보기
전체 경우:
합이 10인 경우: → 3가지
Q3. 다음 상황에서 을 구할 수 있나요?
100명의 환자 중 50명이 두통, 50명이 발열을 경험했습니다.
- 구할 수 없다
정답 보기
1번 — 구할 수 없다
두통과 발열이 동시에 발생한 환자 수()를 모르기 때문입니다.
결합 사건에서는 교집합 정보가 반드시 필요합니다.
Q4. 공장에서 제품 A(70%)와 B(30%)를 생산합니다. 품질 검사 통과율은 A가 80%, B가 90%입니다. 품질 검사를 통과한 제품이 A일 확률은?
정답 보기
베이즈 정리 적용:
분자:
분모 (전체 통과 확률):
결과:
사전확률 70%에서 67.5%로 소폭 감소했습니다 (B의 검사 통과율이 더 높으므로).
Q5. 주사위 하나에서 홀수 또는 소수가 나올 확률은?
정답 보기
- 홀수: →
- 소수: →
- 교집합 (홀수이면서 소수): →
결합 사건 합의 법칙:
다음 글에서는 기댓값과 분산, 왜도·첨도, 공분산과 상관계수, 그리고 다변수 정규 분포를 다룰 예정입니다.
관련 포스트
확률·통계 실무 개념 과제: ML 현장에서 마주치는 추론 문제들
확률 기초, 베이즈 정리, 분포, MLE/MAP, 신뢰구간, 가설검정까지 — 머신러닝 실무 시나리오로 배우는 확률통계 개념 과제 모음입니다.
확률·통계 코딩 과제: Python으로 구현하는 ML 통계 도구
베이즈 업데이트, 분포 시뮬레이션, CLT 검증, MLE/MAP 구현, 신뢰구간, 가설검정, A/B 테스트 파이프라인까지 — 확률통계 1~4장을 코드로 구현합니다.
신뢰구간과 가설검정: 머신러닝 확률통계 4장
신뢰구간의 개념과 계산, t분포, 가설검정의 원리(귀무/대립가설, p값, 기각역, 검정력), 다양한 t검정과 A/B 테스트까지 정리했습니다.