cross-entropy 손실함수 완전 정복 — 심화 학습서
분류의 표준 손실 cross-entropy(교차 엔트로피)를 정보이론의 "놀람"이라는 뿌리에서 출발해 softmax·gradient·실전 함정까지 한 칸씩 풀어 쓴 한 권의 학습서다. 처음 배우는 학부생이 00장부터 06장까지 순서대로 따라 읽도록 설계했다. 어느 ML 교재의 약 15줄짜리 한 절()을 기초·완전유도·수치예제·도식까지 펼쳤다.
읽는 순서
00 → 01 → 02 → 03 → 04 → 05 → 06 순서대로 읽는다. 각 장 끝이 다음 장으로 잇고, 뒷장은 앞장에서 정한 기호·정의를 가져다 쓰기만 한다. 건너뛰면 막힌다.
- 00. 기초 — 여기서 시작한다. 확률·로그·기댓값을 짧게 복습하고, one-hot 라벨과 "모델 출력 = 확률분포" 그림을 세운 뒤, 책 전체가 따르는 기호 규약(§0.6)을 정한다.
- 01. 정보이론 기초 — 한 사건의 놀람(self-information)에서 entropy, cross-entropy, KL divergence, 최대우도(MLE)까지 잇는다. one-hot이면 cross-entropy가 로 줄어듦을 보이고, Gibbs 부등식()을 Jensen으로 증명한다.
- 02. 분류 손실로서의 CE — 로짓 를 softmax·sigmoid로 확률로 짜고, categorical CE와 BCE가 "정답에 준 확률의 음로그"라는 같은 골격으로 만남을 본다. 정답 클래스 확률 로 두 경우를 통합하고, multi-class와 multi-label을 가른다.
- 03. gradient와 최적화 — softmax 야코비안에서 출발해 gradient가 왜 (예측−정답)로 깔끔해지는지 한 줄도 건너뛰지 않고 유도한다. MSE가 분류에 나쁜 이유(포화)도 수치로 본다.
- 04. 실전 심화 — 로짓을 손실에 직접 넣어 NaN을 막는 log-sum-exp, 과확신을 누르는 label smoothing, 클래스 불균형용 weighted CE, CE의 친척들, 그리고 조용히 학습을 망치는 함정 체크리스트.
- 05. 통합 walkthrough — 한 예제 의 logits → softmax → CE → gradient → 한 스텝 업데이트를 끊김 없이 추적한다.
- 06. 결론 — 치트시트 한 장 카드, 손실 선택 결정표, 함정 체크리스트. 종합 결론은 이 장에만 단일화돼 있다.
GLOSSARY — 생소한 용어·기호 색인. 각 항목은 1~3줄 설명과 깊은 정의가 있는 절로의 링크다.
미리 알아 둘 두 가지
읽기 전에 이 두 가지만 머리에 넣어 두면 길을 덜 잃는다.
기호 의 두 얼굴. 글자 는 장에 따라 정반대 두 가지를 뜻한다. 정보이론 장(01)의 는 정답이 알려주는 진짜 분포다. 우리가 맞춰야 할 목표다. 이진 분류 장(02·03)의 는 모델이 내놓은 예측 양성확률이다. gradient 의 가 바로 이것이다. 둘은 정답 측과 예측 측으로 정반대다. 막히면 00장 §0.6의 disambiguation 표로 돌아온다.
주 예제 숫자. 02장에서 등장한 로짓 , 정답=클래스2 예제가 03·05장으로 그대로 이어진다. softmax는 , 손실은 , gradient는 , 학습률 로 한 스텝 가면 손실이 로 줄어든다. 같은 숫자가 여러 장에서 다시 나오면 이 예제를 이어받은 것이다.
읽는 법
Advertisements
Chapters at a glance
- 00 00. 기초 — cross-entropy를 읽기 위한 공통 토대 이 책을 다 읽고 나면 당신은 한 줄짜리 정의 Read
- 01 01. cross-entropy의 뿌리 — 정보이론 기초 이 장이 세우는 개념 사슬을 먼저 한 장으로 보자. Read
- 02 02. 분류 손실로서의 cross-entropy — softmax · sigmoid · BCE · $p_t$ 통합 먼저 분류 한 번의 흐름을 못 박자. 분류 모델이 한 샘플을 처리해 손실을 낼 때까지는 항상 같은 4단계다. Read
- 03 03. cross-entropy의 gradient와 최적화 — 왜 $q-y$인가 신경망 학습은 결국 손실 $L$을 줄이는 파라미터 $\theta$를 찾는 일이다. 경사하강(gradient descent)은 이를 가장 단순하게 푼다. Read
- 04 04. cross-entropy 실전 심화 — 수치안정 · label smoothing · 변형 · 함정 | 기호 | 의미 | |---|---| | $z=(z1,\dots,zK)$ | 로짓: 정규화 안 된 점수, 음수·합≠1 허용 | | $qi=\text{softmax}(z)i=\dfrac{e^{zi}}{\sumj e^{zj}}$ | 예측 확률 | | $y=(y1,\dots,yK)$ |… Read
- 05 05. 통합 walkthrough — 한 예제로 전 과정을 끊김 없이 전체 여정을 한 장으로: Read
- 06 06. 결론 — 치트시트 한 장 · 결정표 · 함정 체크리스트 cross-entropy는 "모델 예측 분포 $q$의 놀람을 진짜 분포 $p$로 평균한 것"이고(01장), 라벨이 one-hot이면 정답 항만 살아남아 "정답에 준 확률의 음로그" $-\log q_c$가 된다(02장). softmax/sigmoid가 로짓을 확률로 짜고, 그 위에서 C… Read