Glossary · cross-entropy 손실함수 완전 정복 — 심화 학습서

B

BCE (binary cross-entropy): $-[y\log\hat p+(1-y)\log(1-\hat p)]=-\log p_t$. $K=2$ one-hot CE이자 베르누이 우도의 음로그. 이진·다중라벨용.
02장 §2.3 →

C

categorical CE: 다중클래스 단일라벨 표준 손실 $-\sumk yk\log qk$. one-hot이면 $-\log qc$로 줄어든다.
02장 §2.2 →
cross-entropy (CE): 모델 분포 $q$의 놀람을 진짜 분포 $p$로 평균한 값 $H(p,q)=-\sum_x p(x)\log q(x)$. 분류의 표준 손실. , 01장 §1.3
00장 §0.5 → · 01장 §1.3 →

F

Focal Loss: CE에 변조항 $(1-p_t)^\gamma$를 곱해 easy 샘플을 죽이고 hard에 집중하는 CE 확장. 이 책은 다리만 놓는다. , 04장 §4.3
02장 §2.3 → · 04장 §4.3 →

G

Gibbs 부등식: $D_{KL}(p\|q)\ge0$, 등호는 $p=q$일 때만. Jensen으로 증명한다. CE 하한이 $H(p)$인 근거.
01장 §1.5 →

J

Jensen 부등식: 오목함수에서 $\mathbb{E}[\varphi(Z)]\le\varphi(\mathbb{E}[Z])$. $\log$가 오목이라 Gibbs 증명에 쓴다.
01장 §1.5 →

K

KL divergence ($D_{KL}$): $\sum_x p(x)\log\frac{p(x)}{q(x)}=H(p,q)-H(p)\ge0$. $q$를 $p$로 믿을 때의 추가 낭비. 거리가 아니라 발산.
01장 §1.5 →

L

label smoothing (라벨 스무딩): $y^{LS}k=(1-\varepsilon)yk+\varepsilon/K$. 정답 타깃을 살짝 무르게 해 과확신을 누르고 보정을 높인다. 보통 $\varepsilon=0.1$.
04장 §4.2 →
log-sum-exp 트릭: $\log\sumj e^{zj}=m+\log\sumj e^{zj-m}$ ($m=\maxj zj$). overflow와 $\log 0$을 동시에 막는 항등식(근사 아님).
04장 §4.1 →

M

MLE (최대우도추정): 우도 $\prod q\theta(xi)$를 최대화. NLL 최소화 = 경험분포와의 CE = MLE = KL 최소화, 모두 같은 말.
01장 §1.6 →

N

NLL (음의 로그우도): $-\frac1N\sum\log q\theta(xi) = H(\hat p,q\theta)$. PyTorch nllloss. CE = NLL ∘ log-softmax. , 04장 §4.4
01장 §1.6 → · 04장 §4.4 →

P

perplexity: $e^{\text{CE}}$(nat 기준). "유효 선택지 수"로 읽는 언어모델 평가 지표(손실 아님). , 04장 §4.4
01장 §1.8 → · 04장 §4.4 →

S

sigmoid: 로짓 하나를 양성확률 $\hat p=\sigma(z)$로 짠다. 2-클래스 softmax의 특수꼴. 이진·다중라벨에 쓴다.
02장 §2.1 →
softmax: $K$개 로짓을 합=1인 확률분포로 짠다. 양수·합1·순서보존·평행이동불변. 상호배타 다중클래스에 쓴다.
02장 §2.1 →

W

weighted CE: 클래스별 가중 $-wt\log qt$. 희소 클래스에 큰 $w$를 줘 불균형에 대응.
04장 §4.3 →

가

가산성 (additivity): 독립 사건의 놀람은 더해져야 한다는 요구. 이 한 조건이 self-information에 로그를 강제한다.
01장 §1.1 →

경

경험분포 (empirical distribution): 데이터에서 각 값이 나온 빈도로 만든 분포. "샘플 합/$N$ = 경험분포에 대한 기댓값"이라, NLL이 경험분포와의 cross-entropy가 된다(01장에서 기호 $\hat p$).
01장 §1.6 →

놀

놀람 (surprise) = self-information: 한 사건의 정보량 $I(x)=-\log p(x)$. 드물수록 크고, 확실하면 0. cross-entropy의 가장 작은 벽돌.
01장 §1.1 →

로

로짓 (logit, $z$): 정규화 안 된 raw 점수. 음수·합≠1 허용. softmax/sigmoid 통과 전 값이고, 손실에 직접 넣는다. , 02장 §2.1
00장 §0.4 → · 02장 §2.1 →

비

비대칭성 (asymmetry): $D{KL}(p\|q)\ne D{KL}(q\|p)$. KL은 거리(metric)가 아니라 발산(divergence)이다.
01장 §1.7, §1.8 →

소

소프트 라벨 (soft label): one-hot이 아닌 타깃(예 $(0.8,0.1,0.1)$). cross-entropy의 모든 항이 살아남아 하한이 $H(p)>0$. label smoothing의 뿌리.
01장 §1.7 →

수

수치안정 (numerical stability): 로짓을 손실에 직접 넣어 $\log 0\to$ NaN을 구조적으로 막는 것. PyTorch가 로짓을 받는 이유.
04장 §4.1 →

야

야코비안 (softmax Jacobian): $\partial qi/\partial zj = qi(\delta{ij}-qj)$. 대각 $qi(1-qi)\ge0$, 비대각 $-qiq_j\le0$(클래스 경쟁). gradient $q-y$ 유도의 (a)단계.
03장 §3.2 →

엔

엔트로피 (entropy, $H(p)$): 분포의 평균 놀람, 곧 불확실성이자 최적 부호 길이. 확정분포면 0, 균등분포면 최대. CE 손실의 하한.
01장 §1.2 →

온

온도 (temperature, $\tau$): $\text{softmax}(z/\tau)$. 작으면 한쪽으로 쏠리고(sharp), 크면 고르게 퍼진다(uniform). distillation·calibration용.
02장 §2.1 →

원

원-핫 (one-hot): 정답 자리만 1, 나머지 0인 라벨(확정분포). 이 덕에 CE가 $-\log q_c$ 한 항으로 줄어든다. , 01장 §1.4
00장 §0.4 → · 01장 §1.4 →

정

정답 클래스 확률 ($p_t$): 이진·통합 표기로 "정답에 준 확률". $pt\to1$이면 easy, 작으면 hard. $\text{BCE}=-\log pt$. , 02장 §2.3
00장 §0.5 → · 02장 §2.3 →

평

평행이동 불변 (translation invariance): 모든 로짓에 같은 상수를 더해도 softmax가 안 바뀐다. safe softmax(최댓값 빼기)의 근거.
02장 §2.1 →

포

포화 (saturation): sigmoid가 양 끝에서 $\sigma'\approx0$이 되는 현상. MSE는 크게 틀린 곳에서 gradient가 소멸한다(CE 대비 최대 405×).
03장 §3.4 →

$

$\eta$: 학습률(learning rate). 한 스텝 $z\leftarrow z-\eta(q-y)$의 보폭.
03장 §3.1 →
$\gamma$: Focal Loss의 focusing 파라미터(이 책은 다리만).
04장 §4.3 →
$\hat p = \sigma(z)$: 모델이 예측한 양성확률. 이진 분류의 예측 측 값이다. gradient $\hat p - y$의 $\hat p$가 이것이며, 진짜 분포 $p(x)$와 다르다. , 02장 §2.1
00장 §0.6 → · 02장 §2.1 →
$\varepsilon$: label smoothing 강도(보통 0.1).
04장 §4.2 →
$H(p),\ H(p,q),\ D_{KL}(p\|q)$: entropy / cross-entropy / KL divergence. $H(p,q)=H(p)+D_{KL}(p\|q)$.
01장 §1.2–1.5 →
$p_t$: 정답 클래스 확률(분류 난이도). $p_t\to1$이면 easy. 진짜 분포 $p(x)$와 무관하다. , 02장 §2.3
00장 §0.5, §0.6 → · 02장 §2.3 →
$p(x)$: 진짜(라벨) 확률분포. 정보이론의 정답 측 분포다. 02·03장의 예측 $\hat p$와 다르다. , 01장 §1.3
00장 §0.6 → · 01장 §1.3 →
$q$ / $q_c$: softmax 예측 분포 / 그중 정답 클래스 $c$에 준 확률. , 02장 §2.2
00장 §0.6 → · 02장 §2.2 →
$y$: 타깃(정답) 분포. one-hot 또는 soft label. , 02장 §2.2
00장 §0.6 → · 02장 §2.2 →
$z=(z_1,\dots,z_K)$: 로짓(raw 점수). 음수·합≠1 허용. , 02장 §2.1
00장 §0.6 → · 02장 §2.1 →