확률의 기초와 확률 분포: 머신러닝 확률통계 1장

이번 글부터는 확률과 통계(Probability & Statistics) 시리즈를 시작합니다. 머신러닝 모델은 본질적으로 불확실성을 다루는 도구입니다. 예측에 담긴 불확실성을 수치로 표현하고, 데이터로부터 추론하며, 모델 성능을 평가하는 모든 과정에 확률·통계가 깔려 있습니다.

이 글은 DeepLearning.AI의 Mathematics for Machine Learning and Data Science — Probability & Statistics 1주차 내용을 기반으로 정리했습니다.

이번 글에서 배우는 것#

확률의 기초 — 사건, 표본공간, 여사건
합의 법칙 — 독립 사건 vs 결합 사건
독립성 — 곱의 법칙
조건부 확률 — 사건이 주어졌을 때의 확률
베이즈 정리 — 사전확률과 사후확률
확률 변수와 분포 — 이산·연속 분포
주요 분포 — 이항, 베르누이, 균등, 정규, 카이제곱

확률의 기초#

확률이란?#

확률(Probability) 은 어떤 사건이 일어날 가능성을 0과 1 사이의 수로 표현한 것입니다.

$P(A) = \frac{\text{사건 A가 발생하는 경우의 수}}{\text{전체 가능한 경우의 수}}$

예시

10명 중 3명이 축구를 한다면: $P(\text{축구}) = \frac{3}{10} = 30\%$
6면 주사위에서 6이 나올 확률: $P(6) = \frac{1}{6}$
동전 2번 던져 모두 앞면: $P(HH) = \frac{1}{4}$

실험(Experiment): 불확실한 결과를 내는 모든 과정

표본공간(Sample Space): 가능한 모든 결과의 집합

여사건 (Complement)#

사건 $A$ 가 일어나지 않을 확률:

$P(A^c) = 1 - P(A)$

예시	계산
축구를 하지 않을 확률	$1 - \frac{3}{10} = \frac{7}{10}$
주사위에서 6이 안 나올 확률	$1 - \frac{1}{6} = \frac{5}{6}$
동전 3번 모두 앞면이 아닐 확률	$1 - \frac{1}{8} = \frac{7}{8}$

활용: 직접 구하기 어려운 확률은 여사건을 통해 구하면 쉽습니다.

합의 법칙 — 독립 사건 (Disjoint Events)#

독립 사건(Disjoint / Mutually Exclusive): 동시에 발생할 수 없는 사건들.

$P(A \cup B) = P(A) + P(B)$

예시

주사위에서 짝수 또는 5가 나올 확률: $P(\text{짝수}) = \frac{3}{6}$ , $P(5) = \frac{1}{6}$ → $P(\text{짝수 or 5}) = \frac{4}{6} = \frac{2}{3}$

합의 법칙 — 결합 사건 (Joint Events)#

결합 사건(Joint Events): 두 사건이 겹칠 수 있는 경우. 교집합을 빼야 합니다.

$P(A \cup B) = P(A) + P(B) - P(A \cap B)$

예시 — 축구(0.6), 농구(0.5), 둘 다(0.3):

$P(\text{축구 or 농구}) = 0.6 + 0.5 - 0.3 = 0.8$

핵심: 두 사건이 독립(disjoint)인지 결합(joint)인지를 먼저 파악해야 합니다. 정보가 없으면 교집합을 알 수 없으므로 확률을 구할 수 없습니다.

독립성 (Independence)#

두 사건 $A$ , $B$ 가 독립이면 한 사건의 발생이 다른 사건의 확률에 영향을 주지 않습니다.

$P(A \cap B) = P(A) \times P(B)$

예시

동전을 5번 던져 모두 앞면: $P = \left(\frac{1}{2}\right)^5 = \frac{1}{32}$
주사위를 10번 던져 모두 6: $P = \left(\frac{1}{6}\right)^{10}$

독립성 가정은 계산을 크게 단순화합니다. 나이브 베이즈 분류기가 이 가정에 기반합니다.

생일 문제 (Birthday Problem)#

30명이 있을 때 적어도 2명의 생일이 같을 확률은?

직관적으로 낮아 보이지만, 실제로는 70% 이상입니다.

여사건으로 계산:

$P(\text{같은 생일 있음}) = 1 - P(\text{모두 다른 생일})$

$P(\text{모두 다름}) = \frac{365}{365} \times \frac{364}{365} \times \frac{363}{365} \times \cdots \times \frac{336}{365} \approx 0.294$

$P(\text{같은 생일 있음}) \approx 1 - 0.294 = 0.706$

교훈: 확률에 대한 직관은 종종 틀립니다. 수식으로 직접 계산하는 것이 중요합니다.

조건부 확률 (Conditional Probability)#

개념#

조건부 확률: 사건 $B$ 가 이미 발생했을 때 사건 $A$ 가 발생할 확률.

$P(A \mid B) = \frac{P(A \cap B)}{P(B)}$

표기법: $P(A \mid B)$ ("B가 주어졌을 때 A의 확률")

예시 — 동전 2번:

$P(HH \mid \text{첫 번째 H})$ = $\frac{1}{2}$ (첫 번째가 H면 두 번째만 H이면 됨)
$P(HH \mid \text{첫 번째 T})$ = 0 (첫 번째가 T면 HH 불가능)

곱의 법칙 (Product Rule)#

독립이 아닌 사건에서 교집합 확률:

$P(A \cap B) = P(A) \times P(B \mid A)$

예시 — 축구를 하는 학생(40%) 중 80%가 런닝화를 신는다면:

$P(\text{축구} \cap \text{런닝화}) = 0.4 \times 0.8 = 0.32$

랜덤(독립) vs 비랜덤(종속): 사건들이 관련되어 있으면 종속 사건이고, 조건부 확률을 써야 합니다.

베이즈 정리 (Bayes' Theorem)#

수식#

$\boxed{P(A \mid B) = \frac{P(B \mid A) \cdot P(A)}{P(B)}}$

용어	의미
$P(A)$	사전확률 (Prior) — 아무 정보 없이 알고 있는 기본 확률
$P(A \mid B)$	사후확률 (Posterior) — 추가 정보 $B$ 를 반영한 갱신된 확률
$P(B \mid A)$	우도 (Likelihood) — A가 주어졌을 때 B가 관측될 확률
$P(B)$	증거 (Evidence) — B가 관측될 전체 확률

스팸 메일 예시#

이메일 중 20%가 스팸: $P(\text{spam}) = 0.2$
스팸 메일의 40%에 "lottery" 포함: $P(\text{lottery} \mid \text{spam}) = 0.4$
전체 메일의 10%에 "lottery" 포함: $P(\text{lottery}) = 0.1$

$P(\text{spam} \mid \text{lottery}) = \frac{0.4 \times 0.2}{0.1} = 0.8$

"lottery"가 포함된 메일이 스팸일 확률은 80%. 사전확률 20%에서 80%로 크게 갱신됩니다.

나이브 베이즈 (Naive Bayes)#

여러 피처가 있을 때 모든 피처가 독립이라고 가정하면:

$P(A \mid B_1, B_2, \ldots, B_n) \propto P(A) \cdot P(B_1 \mid A) \cdot P(B_2 \mid A) \cdots P(B_n \mid A)$

나이브(Naive) 한 이유: 현실에서 피처들은 완전 독립이 아니지만, 이 가정 덕분에:

계산이 매우 단순해짐
데이터가 적어도 잘 작동
텍스트 분류(스팸 필터)에서 특히 효과적

확률 변수와 확률 분포#

확률 변수 (Random Variable)#

확률 변수: 실험의 결과를 숫자로 나타내는 변수.

유형	설명	예시
이산형 (Discrete)	셀 수 있는 유한한 값	동전 앞면 횟수, 주사위 눈
연속형 (Continuous)	구간 내 무한한 값	키, 온도, 대기 시간

이산 확률 분포#

이항 분포 (Binomial Distribution)#

$n$ 번 독립 시행에서 성공 확률이 $p$ 일 때, 정확히 $k$ 번 성공할 확률:

$P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}$

이항 계수 (Binomial Coefficient):

$\binom{n}{k} = \frac{n!}{k!(n-k)!}$

$n$ 개 중 순서 없이 $k$ 개를 뽑는 경우의 수.

예시 — 주사위를 5번 던져 1이 정확히 3번 나올 확률:

$P(X=3) = \binom{5}{3} \left(\frac{1}{6}\right)^3 \left(\frac{5}{6}\right)^2$

성질:

$p = 0.5$ → 대칭적인 분포
$p \neq 0.5$ → 한쪽으로 치우친 분포
$n$ 이 커지면 정규 분포에 수렴

베르누이 분포 (Bernoulli Distribution)#

이항 분포의 특수 경우 ( $n = 1$ ). 성공/실패 두 가지 결과만 있는 단일 시행.

$P(X = k) = \begin{cases} p & k = 1 \text{ (성공)} \\ 1 - p & k = 0 \text{ (실패)} \end{cases}$

예시: 4면 주사위에서 2가 나올 확률 → $\text{Bernoulli}(p = \frac{1}{4})$

베르누이 분포 = 이항 분포 $\text{Binomial}(1, p)$

연속 확률 분포#

확률 밀도 함수 (PDF)#

연속 확률 변수에서는 특정 값의 확률 = 0 (점의 면적 = 0). 대신 구간의 확률을 구합니다.

$P(a \leq X \leq b) = \int_a^b f(x) \, dx$

$f(x)$ : 확률 밀도 함수 (Probability Density Function)

성질:

$f(x) \geq 0$
$\int_{-\infty}^{\infty} f(x) \, dx = 1$ (전체 면적 = 1)

이산: PMF (확률 질량 함수) ↔ 연속: PDF (확률 밀도 함수)

누적 분포 함수 (CDF)#

$F(x) = P(X \leq x) = \int_{-\infty}^{x} f(t) \, dt$

성질:

항상 0에서 시작, 1에서 끝남
단조 증가 (절대 감소하지 않음)
이산: 계단 모양 / 연속: 부드러운 곡선

CDF를 활용하면 분포에서 샘플링이 쉬워집니다. $[0,1]$ 균등 분포에서 값을 뽑아 CDF 역함수를 적용하면 원하는 분포에서의 샘플을 얻습니다.

균등 분포 (Uniform Distribution)#

구간 $[a, b]$ 내 모든 값이 동일한 확률을 가지는 분포.

$f(x) = \frac{1}{b - a}, \quad a \leq x \leq b$

파라미터: $a$ (시작), $b$ (끝)

예시: 전화 대기 시간이 0~5분 사이 균등 분포 → $P(2 \leq X \leq 3) = \frac{1}{5} = 20\%$

정규 분포 (Normal / Gaussian Distribution)#

머신러닝에서 가장 많이 쓰이는 분포. 자연 현상(키, 측정 오차 등)에 자주 등장합니다.

$f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

파라미터:

$\mu$ (뮤): 평균 — 분포의 위치 결정
$\sigma$ (시그마): 표준편차 — 분포의 너비 결정

표준 정규 분포: $\mu = 0$ , $\sigma = 1$ → $Z \sim N(0, 1)$

표준화 (Standardization):

$Z = \frac{X - \mu}{\sigma}$

서로 다른 단위와 범위의 변수를 비교할 때 사용합니다. 머신러닝에서 피처 스케일링의 이론적 근거입니다.

68-95-99.7 법칙:

$\mu \pm 1\sigma$ 내에 약 68% 데이터
$\mu \pm 2\sigma$ 내에 약 95% 데이터
$\mu \pm 3\sigma$ 내에 약 99.7% 데이터

카이제곱 분포 (Chi-Squared Distribution)#

$k$ 개의 독립적인 표준 정규 변수 $Z_i$ 를 제곱해 합한 분포:

$\chi^2_k = Z_1^2 + Z_2^2 + \cdots + Z_k^2$

파라미터: $k$ (자유도, degrees of freedom)

성질:

$k$ 가 작으면 0 근처에 집중, 오른쪽으로 치우침
$k$ 가 커지면 더 넓게 퍼지고 대칭에 가까워짐

머신러닝 활용:

가설 검정 (독립성 검정, 적합도 검정)
신호 노이즈 모델링 (노이즈 제곱의 합)

핵심 정리#

개념	공식 / 설명
기본 확률	$P(A) = \frac{\text{유리한 경우}}{\text{전체 경우}}$
여사건	$P(A^c) = 1 - P(A)$
독립 사건 합	$P(A \cup B) = P(A) + P(B)$
결합 사건 합	$P(A \cup B) = P(A) + P(B) - P(A \cap B)$
독립 곱	$P(A \cap B) = P(A) \cdot P(B)$
조건부 확률	$P(A \mid B) = \frac{P(A \cap B)}{P(B)}$
베이즈 정리	$P(A \mid B) = \frac{P(B \mid A) \cdot P(A)}{P(B)}$
이항 분포	$P(X=k) = \binom{n}{k}p^k(1-p)^{n-k}$
정규 분포	$f(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

퀴즈#

Q1. 공정한 동전을 2번 던질 때 앞면과 뒷면이 순서 무관하게 하나씩 나올 확률은?

정답 보기

가능한 결과: HH, HT, TH, TT (4가지)

앞면·뒷면이 하나씩인 경우: HT, TH (2가지)

$P = \frac{2}{4} = \frac{1}{2}$

Q2. 두 주사위를 던졌을 때 합이 10이 될 확률은?

정답 보기

전체 경우: $6 \times 6 = 36$

합이 10인 경우: $(4,6), (5,5), (6,4)$ → 3가지

$P = \frac{3}{36} = \frac{1}{12}$

Q3. 다음 상황에서 $P(\text{발열 or 두통})$ 을 구할 수 있나요?

100명의 환자 중 50명이 두통, 50명이 발열을 경험했습니다.

구할 수 없다
$P = 1.0$
$P = 0.25$

정답 보기

1번 — 구할 수 없다

두통과 발열이 동시에 발생한 환자 수( $P(A \cap B)$ )를 모르기 때문입니다.

$P(A \cup B) = P(A) + P(B) - P(A \cap B) = 0.5 + 0.5 - ?$

결합 사건에서는 교집합 정보가 반드시 필요합니다.

Q4. 공장에서 제품 A(70%)와 B(30%)를 생산합니다. 품질 검사 통과율은 A가 80%, B가 90%입니다. 품질 검사를 통과한 제품이 A일 확률은?

정답 보기

베이즈 정리 적용:

$P(A \mid \text{통과}) = \frac{P(\text{통과} \mid A) \cdot P(A)}{P(\text{통과})}$

분자: $P(\text{통과} \mid A) \cdot P(A) = 0.8 \times 0.7 = 0.56$

분모 (전체 통과 확률): $P(\text{통과}) = 0.8 \times 0.7 + 0.9 \times 0.3 = 0.56 + 0.27 = 0.83$

결과: $P(A \mid \text{통과}) = \frac{0.56}{0.83} \approx 0.675 = 67.5\%$

사전확률 70%에서 67.5%로 소폭 감소했습니다 (B의 검사 통과율이 더 높으므로).

Q5. 주사위 하나에서 홀수 또는 소수가 나올 확률은?

정답 보기

홀수: $\{1, 3, 5\}$ → $P = \frac{3}{6} = \frac{1}{2}$
소수: $\{2, 3, 5\}$ → $P = \frac{3}{6} = \frac{1}{2}$
교집합 (홀수이면서 소수): $\{3, 5\}$ → $P = \frac{2}{6} = \frac{1}{3}$

결합 사건 합의 법칙:

$P(\text{홀수 or 소수}) = \frac{1}{2} + \frac{1}{2} - \frac{1}{3} = 1 - \frac{1}{3} = \frac{2}{3}$

다음 글에서는 기댓값과 분산, 왜도·첨도, 공분산과 상관계수, 그리고 다변수 정규 분포를 다룰 예정입니다.

확률의 기초와 확률 분포: 머신러닝 확률통계 1장

이번 글에서 배우는 것#

확률의 기초#

확률이란?#

여사건 (Complement)#

합의 법칙 — 독립 사건 (Disjoint Events)#

합의 법칙 — 결합 사건 (Joint Events)#

독립성 (Independence)#

생일 문제 (Birthday Problem)#

조건부 확률 (Conditional Probability)#

개념#

곱의 법칙 (Product Rule)#

베이즈 정리 (Bayes' Theorem)#

수식#

스팸 메일 예시#

나이브 베이즈 (Naive Bayes)#

확률 변수와 확률 분포#

확률 변수 (Random Variable)#

이산 확률 분포#

이항 분포 (Binomial Distribution)#

베르누이 분포 (Bernoulli Distribution)#

연속 확률 분포#

확률 밀도 함수 (PDF)#

누적 분포 함수 (CDF)#

균등 분포 (Uniform Distribution)#

정규 분포 (Normal / Gaussian Distribution)#

카이제곱 분포 (Chi-Squared Distribution)#

핵심 정리#

퀴즈#

관련 포스트

확률·통계 실무 개념 과제: ML 현장에서 마주치는 추론 문제들

확률·통계 코딩 과제: Python으로 구현하는 ML 통계 도구

신뢰구간과 가설검정: 머신러닝 확률통계 4장