미분의 개념과 주요 미분 공식: 머신러닝 미적분 1장

머신러닝 모델을 학습시킨다는 것은 결국 손실 함수(loss function)를 최소화하는 과정입니다. 이 최소화의 수학적 도구가 바로 미분(Derivative) 입니다. 이번 글에서는 미분의 직관적 의미부터 시작해 주요 함수들의 미분 공식과 핵심 규칙들을 정리합니다.

이 글은 DeepLearning.AI의 Mathematics for Machine Learning and Data Science — Calculus 1주차 내용을 기반으로 정리했습니다.

이번 글에서 배우는 것#

도함수(Derivative) 의 직관적 의미 — 순간 변화율과 접선의 기울기
기울기, 최댓값, 최솟값의 관계
상수·선형·다항·지수·로그·삼각 함수의 미분
미분 불가능(Non-differentiable) 함수의 조건
미분의 4가지 핵심 성질: 스칼라 곱, 합, 곱, 연쇄 법칙

왜 머신러닝에서 미분이 필요한가#

머신러닝 모델 학습은 최적화(Optimization) 입니다.

회귀(Regression): 데이터 포인트를 가장 잘 설명하는 직선 찾기
분류(Classification): 데이터를 가장 잘 나누는 경계선 찾기

두 경우 모두 처음에는 임의의 선에서 시작해, 점차 가장 적합한 위치로 조정(tweak) 해나갑니다. 이 과정을 최적화라 부르고, 어느 방향으로 얼마나 조정할지를 알려주는 것이 바로 미분입니다.

미분이란 무엇인가 — 순간 변화율#

자동차의 속도계를 생각해봅시다. 전체 여정의 평균 속도는 쉽게 구할 수 있습니다.

$\text{평균 속도} = \frac{\Delta \text{거리}}{\Delta \text{시간}} = \frac{y(t_2) - y(t_1)}{t_2 - t_1}$

하지만 특정 순간의 속도는 어떻게 구할까요? 시간 간격을 점점 줄여나가면 됩니다.

$\text{순간 속도} = \lim_{\Delta t \to 0} \frac{\Delta y}{\Delta t}$

이것이 바로 도함수(Derivative) — 함수의 순간 변화율입니다.

예시: $t = 10 \sim 15$ 초 사이 평균 속도

$v = \frac{y(15) - y(10)}{15 - 10} = \frac{202 - 122}{5} = 16 \text{ m/s}$

$t = 12 \sim 13$ 초 사이로 좁히면 $t = 12.5$ 초의 근사 순간 속도를 구할 수 있습니다.

핵심 비유: 거리 = 함수 $f(x)$ , 속도 = 도함수 $f'(x)$

접선과 미분#

순간 변화율 은 그래프 위 한 점에서의 접선(tangent line)의 기울기와 같습니다.

접선이란 곡선 위의 한 점에 닿되, 그 점에서 곡선을 가로지르지 않는 직선입니다.

$f'(x) = \lim_{\Delta x \to 0} \frac{f(x + \Delta x) - f(x)}{\Delta x}$

$\boxed{\text{도함수} = \text{접선의 기울기}}$

기울기, 최댓값, 최솟값#

함수의 최대·최소는 어디서 일어날까요?

핵심 원리: 함수의 최댓값 또는 최솟값은 도함수가 0인 점(기울기 = 0인 점)에서 발생합니다.

$f'(x) = 0 \Rightarrow \text{최댓값 또는 최솟값 후보}$

도함수 부호	의미
$f'(x) > 0$	함수가 증가 중
$f'(x) = 0$	기울기 0 — 극값(최대/최소) 후보
$f'(x) < 0$	함수가 감소 중

실무에서는? 손실 함수의 미분이 0이 되는 지점이 모델의 최적 파라미터입니다. 경사 하강법(Gradient Descent)은 이 지점을 향해 조금씩 이동합니다.

미분 표기법#

도함수를 표기하는 방법은 여러 가지입니다.

표기	의미
$f'(x)$	라그랑주 표기법
$\dfrac{df}{dx}$	라이프니츠 표기법
$\dot{f}$	뉴턴 표기법 (주로 시간 미분)

주요 함수의 미분#

상수 함수#

$f(x) = c \Rightarrow f'(x) = 0$

상수는 변하지 않으므로 변화율이 0입니다.

선형 함수#

$f(x) = ax + b \Rightarrow f'(x) = a$

기울기 $a$ 가 일정하므로 모든 점에서 도함수 = $a$ . 상수항 $b$ 는 변화율에 영향 없음.

이차 함수 (Quadratic)#

$f(x) = x^2 \Rightarrow f'(x) = 2x$

직관적 유도:

$\frac{(x + \Delta x)^2 - x^2}{\Delta x} = \frac{2x\Delta x + (\Delta x)^2}{\Delta x} = 2x + \Delta x \xrightarrow{\Delta x \to 0} 2x$

고차 다항 함수 (Power Rule)#

$f(x) = x^n \Rightarrow f'(x) = nx^{n-1}$

규칙: 지수를 계수로 내리고, 지수를 1 줄입니다.

함수	도함수
$x^3$	$3x^2$
$x^4$	$4x^3$
$x^{-1}$	$-x^{-2}$
$\sqrt{x} = x^{1/2}$	$\dfrac{1}{2}x^{-1/2}$

역함수의 미분#

역함수는 원래 함수가 입력에 한 일을 되돌리는 함수입니다.

$g = f^{-1} \Rightarrow g'(x) = \frac{1}{f'(g(x))}$

역함수의 도함수 = 원함수 도함수의 역수

삼각 함수의 미분#

$\frac{d}{dx}\sin(x) = \cos(x)$

$\frac{d}{dx}\cos(x) = -\sin(x)$

$\frac{d}{dx}\tan(x) = \sec^2(x)$

직관: $\Delta x$ 를 극한으로 줄이면 삼각형의 빗변이 $\Delta x$ 에 수렴하고, 이를 정리하면 삼각함수 미분 공식이 도출됩니다.

자연상수 $e$ 와 지수 함수의 미분#

자연상수 $e$ 란?#

은행 이자를 예시로:

$e = \lim_{n \to \infty} \left(1 + \frac{1}{n}\right)^n \approx 2.71828\ldots$

$n$ 이 커질수록 결과값이 $e$ 에 수렴합니다.

$e^x$ 의 미분#

$\frac{d}{dx}e^x = e^x$

$e^x$ 는 자기 자신이 도함수인 유일한 함수입니다. 미분해도 변하지 않습니다.

실무에서는? 시그모이드 함수 $\sigma(x) = \frac{1}{1+e^{-x}}$ 의 미분이 딥러닝 역전파(backpropagation)의 핵심입니다.

로그 함수의 미분#

$\frac{d}{dx}\ln(x) = \frac{1}{x}$

관계: $\ln(x)$ 는 $e^x$ 의 역함수이므로, 역함수 미분 법칙에 의해 $\frac{1}{x}$ 가 됩니다.

미분이 존재하지 않는 경우#

모든 함수가 모든 점에서 미분 가능한 것은 아닙니다.

경우	예시	이유
꺾임점 (Cusp)	$\\|x\\|$ 의 $x=0$	좌미분 ≠ 우미분
불연속점 (Jump)	계단 함수	해당 점에서 함수가 정의 불연속
수직 접선	$x^{1/3}$ 의 $x=0$	기울기 = $\infty$ (0으로 나누기)

이러한 함수들을 미분 불가능 함수(Non-differentiable function) 라고 합니다.

실무에서는? ReLU 활성화 함수 $\max(0, x)$ 는 $x=0$ 에서 미분 불가능하지만, 실제로는 0 또는 1 중 하나를 사용하는 근사(subgradient) 방식으로 학습합니다.

미분의 4가지 핵심 성질#

1. 스칼라 곱 법칙 (Scalar Multiplication Rule)#

$\frac{d}{dx}[c \cdot f(x)] = c \cdot f'(x)$

함수에 상수를 곱하면, 도함수도 그 상수를 곱한 값이 됩니다.

$\frac{d}{dx}[5x^3] = 5 \cdot 3x^2 = 15x^2$

2. 합의 법칙 (Sum Rule)#

$\frac{d}{dx}[f(x) + g(x)] = f'(x) + g'(x)$

두 함수의 합의 도함수 = 각 도함수의 합.

$f(x) = 2x,\ g(x) = x^2 \Rightarrow (f+g)'(x) = 2 + 2x$

직관: 기차 위를 달리는 아이의 속도 = 기차 속도 + 아이 속도

3. 곱의 법칙 (Product Rule)#

$\frac{d}{dx}[f(x) \cdot g(x)] = f'(x)g(x) + f(x)g'(x)$

예시: $f(x) = xe^x$

$f'(x) = (x)' \cdot e^x + x \cdot (e^x)' = e^x + xe^x = e^x(1+x)$

4. 연쇄 법칙 (Chain Rule)#

합성 함수의 미분 법칙입니다.

$\frac{d}{dx}[f(g(x))] = f'(g(x)) \cdot g'(x)$

직관: 높이 → 온도 → 시간 의 변화율을 알 때:

$\frac{d\text{온도}}{d\text{시간}} = \frac{d\text{온도}}{d\text{높이}} \times \frac{d\text{높이}}{d\text{시간}}$

예시: $f(x) = e^{2x}$

$g(x) = 2x,\quad f(g) = e^g$

$f'(x) = e^{2x} \cdot (2x)' = 2e^{2x}$

실무에서는? 딥러닝의 역전파(Backpropagation) 는 연쇄 법칙을 반복 적용해 각 레이어의 기울기를 계산하는 알고리즘입니다.

전체 미분 공식 요약#

함수	도함수
$c$ (상수)	$0$
$x^n$	$nx^{n-1}$
$e^x$	$e^x$
$\ln(x)$	$\dfrac{1}{x}$
$\sin(x)$	$\cos(x)$
$\cos(x)$	$-\sin(x)$
$\tan(x)$	$\sec^2(x)$

법칙	공식
스칼라 곱	$(cf)' = cf'$
합의 법칙	$(f+g)' = f' + g'$
곱의 법칙	$(fg)' = f'g + fg'$
연쇄 법칙	$(f \circ g)' = f'(g) \cdot g'$

퀴즈#

Q1. 다음 함수를 미분하세요.

$f(x) = 3x^4 - 2x^2 + 5x - 7$

정답 보기

합의 법칙 + 스칼라 곱 + 거듭제곱 법칙 적용:

$f'(x) = 12x^3 - 4x + 5$

Q2. $f(x) = x^2 e^x$ 를 미분하세요.

정답 보기

곱의 법칙: $(fg)' = f'g + fg'$

$f'(x) = 2x \cdot e^x + x^2 \cdot e^x = e^x(2x + x^2) = xe^x(x+2)$

Q3. $f(x) = \ln(x^2 + 1)$ 을 미분하세요.

정답 보기

연쇄 법칙: $g(x) = x^2 + 1$ , $f(g) = \ln(g)$

$f'(x) = \frac{1}{x^2+1} \cdot 2x = \frac{2x}{x^2+1}$

Q4. 다음 중 $x = 0$ 에서 미분 불가능한 함수는?

$f(x) = x^2$
$f(x) = |x|$
$f(x) = e^x$
$f(x) = \sin(x)$

정답 보기

2번 $f(x) = |x|$

$x = 0$ 에서 좌미분 = $-1$ , 우미분 = $1$ 로 서로 달라 미분이 존재하지 않습니다. (꺾임점, Cusp)

Q5. $f(x) = \sin(3x^2)$ 을 미분하세요.

정답 보기

연쇄 법칙 2번 적용: $h(x) = 3x^2$ , $g(h) = \sin(h)$

$f'(x) = \cos(3x^2) \cdot 6x = 6x\cos(3x^2)$

다음 글에서는 최적화(Optimization), 편미분(Partial Derivative), 그래디언트(Gradient) 와 경사 하강법을 다룰 예정입니다.

미분의 개념과 주요 미분 공식: 머신러닝 미적분 1장

이번 글에서 배우는 것#

왜 머신러닝에서 미분이 필요한가#

미분이란 무엇인가 — 순간 변화율#

접선과 미분#

기울기, 최댓값, 최솟값#

미분 표기법#

주요 함수의 미분#

상수 함수#

선형 함수#

이차 함수 (Quadratic)#

고차 다항 함수 (Power Rule)#

역함수의 미분#

삼각 함수의 미분#

자연상수 $e$ 와 지수 함수의 미분#

자연상수 $e$ 란?#

$e^x$ 의 미분#

로그 함수의 미분#

미분이 존재하지 않는 경우#

미분의 4가지 핵심 성질#

1. 스칼라 곱 법칙 (Scalar Multiplication Rule)#

2. 합의 법칙 (Sum Rule)#

3. 곱의 법칙 (Product Rule)#

4. 연쇄 법칙 (Chain Rule)#

전체 미분 공식 요약#

퀴즈#

관련 포스트

선형대수 실무 개념 과제: ML 현장에서 마주치는 문제들

선형대수 코딩 과제: NumPy로 구현하는 행렬 연산

고유값·고유벡터와 PCA: 선형대수 기초 4장