Skip to content
Glossary · cross-entropy 손실함수 완전 정복 — 심화 학습서
B
- BCE (binary cross-entropy)
- $-[y\log\hat p+(1-y)\log(1-\hat p)]=-\log p_t$. $K=2$ one-hot CE이자 베르누이 우도의 음로그. 이진·다중라벨용.
C
- categorical CE
- 다중클래스 단일라벨 표준 손실 $-\sumk yk\log qk$. one-hot이면 $-\log qc$로 줄어든다.
- cross-entropy (CE)
- 모델 분포 $q$의 놀람을 진짜 분포 $p$로 평균한 값 $H(p,q)=-\sum_x p(x)\log q(x)$. 분류의 표준 손실. , 01장 §1.3
F
- Focal Loss
- CE에 변조항 $(1-p_t)^\gamma$를 곱해 easy 샘플을 죽이고 hard에 집중하는 CE 확장. 이 책은 다리만 놓는다. , 04장 §4.3
G
- Gibbs 부등식
- $D_{KL}(p\|q)\ge0$, 등호는 $p=q$일 때만. Jensen으로 증명한다. CE 하한이 $H(p)$인 근거.
J
- Jensen 부등식
- 오목함수에서 $\mathbb{E}[\varphi(Z)]\le\varphi(\mathbb{E}[Z])$. $\log$가 오목이라 Gibbs 증명에 쓴다.
K
- KL divergence ($D_{KL}$)
- $\sum_x p(x)\log\frac{p(x)}{q(x)}=H(p,q)-H(p)\ge0$. $q$를 $p$로 믿을 때의 추가 낭비. 거리가 아니라 발산.
L
- label smoothing (라벨 스무딩)
- $y^{LS}k=(1-\varepsilon)yk+\varepsilon/K$. 정답 타깃을 살짝 무르게 해 과확신을 누르고 보정을 높인다. 보통 $\varepsilon=0.1$.
- log-sum-exp 트릭
- $\log\sumj e^{zj}=m+\log\sumj e^{zj-m}$ ($m=\maxj zj$). overflow와 $\log 0$을 동시에 막는 항등식(근사 아님).
M
- MLE (최대우도추정)
- 우도 $\prod q\theta(xi)$를 최대화. NLL 최소화 = 경험분포와의 CE = MLE = KL 최소화, 모두 같은 말.
N
- NLL (음의 로그우도)
- $-\frac1N\sum\log q\theta(xi) = H(\hat p,q\theta)$. PyTorch nllloss. CE = NLL ∘ log-softmax. , 04장 §4.4
P
- perplexity
- $e^{\text{CE}}$(nat 기준). "유효 선택지 수"로 읽는 언어모델 평가 지표(손실 아님). , 04장 §4.4
S
- sigmoid
- 로짓 하나를 양성확률 $\hat p=\sigma(z)$로 짠다. 2-클래스 softmax의 특수꼴. 이진·다중라벨에 쓴다.
- softmax
- $K$개 로짓을 합=1인 확률분포로 짠다. 양수·합1·순서보존·평행이동불변. 상호배타 다중클래스에 쓴다.
W
- weighted CE
- 클래스별 가중 $-wt\log qt$. 희소 클래스에 큰 $w$를 줘 불균형에 대응.
가
- 가산성 (additivity)
- 독립 사건의 놀람은 더해져야 한다는 요구. 이 한 조건이 self-information에 로그를 강제한다.
경
- 경험분포 (empirical distribution)
- 데이터에서 각 값이 나온 빈도로 만든 분포. "샘플 합/$N$ = 경험분포에 대한 기댓값"이라, NLL이 경험분포와의 cross-entropy가 된다(01장에서 기호 $\hat p$).
놀
- 놀람 (surprise) = self-information
- 한 사건의 정보량 $I(x)=-\log p(x)$. 드물수록 크고, 확실하면 0. cross-entropy의 가장 작은 벽돌.
로
- 로짓 (logit, $z$)
- 정규화 안 된 raw 점수. 음수·합≠1 허용. softmax/sigmoid 통과 전 값이고, 손실에 직접 넣는다. , 02장 §2.1
비
- 비대칭성 (asymmetry)
- $D{KL}(p\|q)\ne D{KL}(q\|p)$. KL은 거리(metric)가 아니라 발산(divergence)이다.
소
- 소프트 라벨 (soft label)
- one-hot이 아닌 타깃(예 $(0.8,0.1,0.1)$). cross-entropy의 모든 항이 살아남아 하한이 $H(p)>0$. label smoothing의 뿌리.
수
- 수치안정 (numerical stability)
- 로짓을 손실에 직접 넣어 $\log 0\to$ NaN을 구조적으로 막는 것. PyTorch가 로짓을 받는 이유.
야
- 야코비안 (softmax Jacobian)
- $\partial qi/\partial zj = qi(\delta{ij}-qj)$. 대각 $qi(1-qi)\ge0$, 비대각 $-qiq_j\le0$(클래스 경쟁). gradient $q-y$ 유도의 (a)단계.
엔
- 엔트로피 (entropy, $H(p)$)
- 분포의 평균 놀람, 곧 불확실성이자 최적 부호 길이. 확정분포면 0, 균등분포면 최대. CE 손실의 하한.
온
- 온도 (temperature, $\tau$)
- $\text{softmax}(z/\tau)$. 작으면 한쪽으로 쏠리고(sharp), 크면 고르게 퍼진다(uniform). distillation·calibration용.
원
- 원-핫 (one-hot)
- 정답 자리만 1, 나머지 0인 라벨(확정분포). 이 덕에 CE가 $-\log q_c$ 한 항으로 줄어든다. , 01장 §1.4
정
- 정답 클래스 확률 ($p_t$)
- 이진·통합 표기로 "정답에 준 확률". $pt\to1$이면 easy, 작으면 hard. $\text{BCE}=-\log pt$. , 02장 §2.3
평
- 평행이동 불변 (translation invariance)
- 모든 로짓에 같은 상수를 더해도 softmax가 안 바뀐다. safe softmax(최댓값 빼기)의 근거.
포
- 포화 (saturation)
- sigmoid가 양 끝에서 $\sigma'\approx0$이 되는 현상. MSE는 크게 틀린 곳에서 gradient가 소멸한다(CE 대비 최대 405×).
$
- $\eta$
- 학습률(learning rate). 한 스텝 $z\leftarrow z-\eta(q-y)$의 보폭.
- $\gamma$
- Focal Loss의 focusing 파라미터(이 책은 다리만).
- $\hat p = \sigma(z)$
- 모델이 예측한 양성확률. 이진 분류의 예측 측 값이다. gradient $\hat p - y$의 $\hat p$가 이것이며, 진짜 분포 $p(x)$와 다르다. , 02장 §2.1
- $\varepsilon$
- label smoothing 강도(보통 0.1).
- $H(p),\ H(p,q),\ D_{KL}(p\|q)$
- entropy / cross-entropy / KL divergence. $H(p,q)=H(p)+D_{KL}(p\|q)$.
- $p_t$
- 정답 클래스 확률(분류 난이도). $p_t\to1$이면 easy. 진짜 분포 $p(x)$와 무관하다. , 02장 §2.3
- $p(x)$
- 진짜(라벨) 확률분포. 정보이론의 정답 측 분포다. 02·03장의 예측 $\hat p$와 다르다. , 01장 §1.3
- $q$ / $q_c$
- softmax 예측 분포 / 그중 정답 클래스 $c$에 준 확률. , 02장 §2.2
- $y$
- 타깃(정답) 분포. one-hot 또는 soft label. , 02장 §2.2
- $z=(z_1,\dots,z_K)$
- 로짓(raw 점수). 음수·합≠1 허용. , 02장 §2.1