Glossary · cross-entropy 손실함수 완전 정복 — 심화 학습서

B

BCE (binary cross-entropy)
$-[y\log\hat p+(1-y)\log(1-\hat p)]=-\log p_t$. $K=2$ one-hot CE이자 베르누이 우도의 음로그. 이진·다중라벨용.

C

categorical CE
다중클래스 단일라벨 표준 손실 $-\sumk yk\log qk$. one-hot이면 $-\log qc$로 줄어든다.
cross-entropy (CE)
모델 분포 $q$의 놀람을 진짜 분포 $p$로 평균한 값 $H(p,q)=-\sum_x p(x)\log q(x)$. 분류의 표준 손실. , 01장 §1.3

F

Focal Loss
CE에 변조항 $(1-p_t)^\gamma$를 곱해 easy 샘플을 죽이고 hard에 집중하는 CE 확장. 이 책은 다리만 놓는다. , 04장 §4.3

G

Gibbs 부등식
$D_{KL}(p\|q)\ge0$, 등호는 $p=q$일 때만. Jensen으로 증명한다. CE 하한이 $H(p)$인 근거.

J

Jensen 부등식
오목함수에서 $\mathbb{E}[\varphi(Z)]\le\varphi(\mathbb{E}[Z])$. $\log$가 오목이라 Gibbs 증명에 쓴다.

K

KL divergence ($D_{KL}$)
$\sum_x p(x)\log\frac{p(x)}{q(x)}=H(p,q)-H(p)\ge0$. $q$를 $p$로 믿을 때의 추가 낭비. 거리가 아니라 발산.

L

label smoothing (라벨 스무딩)
$y^{LS}k=(1-\varepsilon)yk+\varepsilon/K$. 정답 타깃을 살짝 무르게 해 과확신을 누르고 보정을 높인다. 보통 $\varepsilon=0.1$.
log-sum-exp 트릭
$\log\sumj e^{zj}=m+\log\sumj e^{zj-m}$ ($m=\maxj zj$). overflow와 $\log 0$을 동시에 막는 항등식(근사 아님).

M

MLE (최대우도추정)
우도 $\prod q\theta(xi)$를 최대화. NLL 최소화 = 경험분포와의 CE = MLE = KL 최소화, 모두 같은 말.

N

NLL (음의 로그우도)
$-\frac1N\sum\log q\theta(xi) = H(\hat p,q\theta)$. PyTorch nllloss. CE = NLL ∘ log-softmax. , 04장 §4.4

P

perplexity
$e^{\text{CE}}$(nat 기준). "유효 선택지 수"로 읽는 언어모델 평가 지표(손실 아님). , 04장 §4.4

S

sigmoid
로짓 하나를 양성확률 $\hat p=\sigma(z)$로 짠다. 2-클래스 softmax의 특수꼴. 이진·다중라벨에 쓴다.
softmax
$K$개 로짓을 합=1인 확률분포로 짠다. 양수·합1·순서보존·평행이동불변. 상호배타 다중클래스에 쓴다.

W

weighted CE
클래스별 가중 $-wt\log qt$. 희소 클래스에 큰 $w$를 줘 불균형에 대응.

가산성 (additivity)
독립 사건의 놀람은 더해져야 한다는 요구. 이 한 조건이 self-information에 로그를 강제한다.

경험분포 (empirical distribution)
데이터에서 각 값이 나온 빈도로 만든 분포. "샘플 합/$N$ = 경험분포에 대한 기댓값"이라, NLL이 경험분포와의 cross-entropy가 된다(01장에서 기호 $\hat p$).

놀람 (surprise) = self-information
한 사건의 정보량 $I(x)=-\log p(x)$. 드물수록 크고, 확실하면 0. cross-entropy의 가장 작은 벽돌.

로짓 (logit, $z$)
정규화 안 된 raw 점수. 음수·합≠1 허용. softmax/sigmoid 통과 전 값이고, 손실에 직접 넣는다. , 02장 §2.1

비대칭성 (asymmetry)
$D{KL}(p\|q)\ne D{KL}(q\|p)$. KL은 거리(metric)가 아니라 발산(divergence)이다.

소프트 라벨 (soft label)
one-hot이 아닌 타깃(예 $(0.8,0.1,0.1)$). cross-entropy의 모든 항이 살아남아 하한이 $H(p)>0$. label smoothing의 뿌리.

수치안정 (numerical stability)
로짓을 손실에 직접 넣어 $\log 0\to$ NaN을 구조적으로 막는 것. PyTorch가 로짓을 받는 이유.

야코비안 (softmax Jacobian)
$\partial qi/\partial zj = qi(\delta{ij}-qj)$. 대각 $qi(1-qi)\ge0$, 비대각 $-qiq_j\le0$(클래스 경쟁). gradient $q-y$ 유도의 (a)단계.

엔트로피 (entropy, $H(p)$)
분포의 평균 놀람, 곧 불확실성이자 최적 부호 길이. 확정분포면 0, 균등분포면 최대. CE 손실의 하한.

온도 (temperature, $\tau$)
$\text{softmax}(z/\tau)$. 작으면 한쪽으로 쏠리고(sharp), 크면 고르게 퍼진다(uniform). distillation·calibration용.

원-핫 (one-hot)
정답 자리만 1, 나머지 0인 라벨(확정분포). 이 덕에 CE가 $-\log q_c$ 한 항으로 줄어든다. , 01장 §1.4

정답 클래스 확률 ($p_t$)
이진·통합 표기로 "정답에 준 확률". $pt\to1$이면 easy, 작으면 hard. $\text{BCE}=-\log pt$. , 02장 §2.3

평행이동 불변 (translation invariance)
모든 로짓에 같은 상수를 더해도 softmax가 안 바뀐다. safe softmax(최댓값 빼기)의 근거.

포화 (saturation)
sigmoid가 양 끝에서 $\sigma'\approx0$이 되는 현상. MSE는 크게 틀린 곳에서 gradient가 소멸한다(CE 대비 최대 405×).

$

$\eta$
학습률(learning rate). 한 스텝 $z\leftarrow z-\eta(q-y)$의 보폭.
$\gamma$
Focal Loss의 focusing 파라미터(이 책은 다리만).
$\hat p = \sigma(z)$
모델이 예측한 양성확률. 이진 분류의 예측 측 값이다. gradient $\hat p - y$의 $\hat p$가 이것이며, 진짜 분포 $p(x)$와 다르다. , 02장 §2.1
$\varepsilon$
label smoothing 강도(보통 0.1).
$H(p),\ H(p,q),\ D_{KL}(p\|q)$
entropy / cross-entropy / KL divergence. $H(p,q)=H(p)+D_{KL}(p\|q)$.
$p_t$
정답 클래스 확률(분류 난이도). $p_t\to1$이면 easy. 진짜 분포 $p(x)$와 무관하다. , 02장 §2.3
$p(x)$
진짜(라벨) 확률분포. 정보이론의 정답 측 분포다. 02·03장의 예측 $\hat p$와 다르다. , 01장 §1.3
$q$ / $q_c$
softmax 예측 분포 / 그중 정답 클래스 $c$에 준 확률. , 02장 §2.2
$y$
타깃(정답) 분포. one-hot 또는 soft label. , 02장 §2.2
$z=(z_1,\dots,z_K)$
로짓(raw 점수). 음수·합≠1 허용. , 02장 §2.1