Series

cross-entropy 손실함수 완전 정복 — 심화 학습서

분류의 표준 손실 cross-entropy(교차 엔트로피)를 정보이론의 "놀람"이라는 뿌리에서 출발해 softmax·gradient·실전 함정까지 한 칸씩 풀어 쓴 한 권의 학습서다. 처음 배우는 학부생이 00장부터 06장까지 순서대로 따라 읽도록 설계했다. 어느 ML 교재의 약 15줄짜리 한 절( $\text{CE}=-\log q$ )을 기초·완전유도·수치예제·도식까지 펼쳤다.

읽는 순서

00 → 01 → 02 → 03 → 04 → 05 → 06 순서대로 읽는다. 각 장 끝이 다음 장으로 잇고, 뒷장은 앞장에서 정한 기호·정의를 가져다 쓰기만 한다. 건너뛰면 막힌다.

00. 기초 — 여기서 시작한다. 확률·로그·기댓값을 짧게 복습하고, one-hot 라벨과 "모델 출력 = 확률분포" 그림을 세운 뒤, 책 전체가 따르는 기호 규약(§0.6)을 정한다.
01. 정보이론 기초 — 한 사건의 놀람(self-information)에서 entropy, cross-entropy, KL divergence, 최대우도(MLE)까지 잇는다. one-hot이면 cross-entropy가 $-\log q_c$ 로 줄어듦을 보이고, Gibbs 부등식( $D_{KL}\ge0$ )을 Jensen으로 증명한다.
02. 분류 손실로서의 CE — 로짓 $z$ 를 softmax·sigmoid로 확률로 짜고, categorical CE와 BCE가 "정답에 준 확률의 음로그"라는 같은 골격으로 만남을 본다. 정답 클래스 확률 $p_t$ 로 두 경우를 통합하고, multi-class와 multi-label을 가른다.
03. gradient와 최적화 — softmax 야코비안에서 출발해 gradient가 왜 $q-y$ (예측−정답)로 깔끔해지는지 한 줄도 건너뛰지 않고 유도한다. MSE가 분류에 나쁜 이유(포화)도 수치로 본다.
04. 실전 심화 — 로짓을 손실에 직접 넣어 $\log 0$ NaN을 막는 log-sum-exp, 과확신을 누르는 label smoothing, 클래스 불균형용 weighted CE, CE의 친척들, 그리고 조용히 학습을 망치는 함정 체크리스트.
05. 통합 walkthrough — 한 예제 $z=(2,1,0.1)$ 의 logits → softmax → CE → gradient → 한 스텝 업데이트를 끊김 없이 추적한다.
06. 결론 — 치트시트 한 장 카드, 손실 선택 결정표, 함정 체크리스트. 종합 결론은 이 장에만 단일화돼 있다.

GLOSSARY — 생소한 용어·기호 색인. 각 항목은 1~3줄 설명과 깊은 정의가 있는 절로의 링크다.

미리 알아 둘 두 가지

읽기 전에 이 두 가지만 머리에 넣어 두면 길을 덜 잃는다.

기호 $p$ 의 두 얼굴. 글자 $p$ 는 장에 따라 정반대 두 가지를 뜻한다. 정보이론 장(01)의 $p(x)$ 는 정답이 알려주는 진짜 분포다. 우리가 맞춰야 할 목표다. 이진 분류 장(02·03)의 $\hat p=\sigma(z)$ 는 모델이 내놓은 예측 양성확률이다. gradient $\hat p - y$ 의 $\hat p$ 가 바로 이것이다. 둘은 정답 측과 예측 측으로 정반대다. 막히면 00장 §0.6의 disambiguation 표로 돌아온다.

주 예제 숫자. 02장에서 등장한 로짓 $z=(2,1,0.1)$ , 정답=클래스2 예제가 03·05장으로 그대로 이어진다. softmax는 $q_2=0.2424$ , 손실은 $L=1.41703$ , gradient는 $q-y=(0.659,-0.758,0.099)$ , 학습률 $0.1$ 로 한 스텝 가면 손실이 $1.41703 \to 1.31707$ 로 줄어든다. 같은 숫자가 여러 장에서 다시 나오면 이 예제를 이어받은 것이다.

읽는 법

수식은 LaTeX( $...$ )로, 개념의 흐름·관계·구조는 Mermaid 다이어그램 소스로 적었다(렌더하면 그림이 된다).
모든 수치 예제는 직접 계산·검증한 값이다. 손으로 따라 계산하며 읽으면 가장 잘 남는다.
처음 보는 기호는 00장 §0.6 표로, 처음 보는 용어는 GLOSSARY로 돌아온다.
종합 결론·치트시트·결정표가 필요하면 바로 06장으로 간다.