01. cross-entropy의 뿌리 — 정보이론 기초
목차
- 1.1 한 사건의 "놀람" — self-information
- 정의: 왜 음의 로그인가
- 가산성이 로그를 강제한다
- 작은 예제 — 동전과 주사위
- 1.2 entropy — 평균 놀람, 불확실성
- 정의: self-information의 기댓값
- 언제 최대이고 언제 0인가
- 동전 엔트로피 — 직접 계산
- 1.3 cross-entropy — 이 책의 핵심
- 정의: "틀린 분포 의 놀람을, 진짜 분포 로 평균"
- 부호화 직관 — "남의 코드북으로 내 메시지 보내기"
- 1.4 분류로의 특수화 — 의 정체
- 작은 예제 (전체 계산은 §1.7)
- 1.5 KL divergence — cross-entropy와 entropy의 "차이"
- 정의와 핵심 분해
- Gibbs 부등식 — Jensen으로, 학부 눈높이로 천천히
- 따름정리들 — 한 번에 정리
- 왜 "CE 최소화 = KL 최소화"인가 — 학습의 핵심
- 1.6 최대우도(MLE)와의 동치
- 1.7 worked example 모음 — 전부 직접 계산
- ① 깔끔한 정답: one-hot , 예측
- ② 예측이 나빠지면 CE가 커진다 (같은 one-hot )
- ③ soft label — label smoothing 예고
- ④ 비대칭성 데모 —
- 1.8 단위·perplexity·용어표·오개념
- bits vs nats (실무 관점)
- perplexity — 한 줄 예고
- 정보이론 ↔ ML 용어 대응표
- 흔한 오개념
- 1.9 전체 개념 지도 (한 장 요약)
- 출처
앞 장에서 약속한 그림이 있다. 모델 출력은 확률분포이고, 그게 정답 분포에서 얼마나 떨어졌는지를 cross-entropy가 잰다. 이 장은 그 cross-entropy가 어디서 왔는지 정보이론의 가장 작은 벽돌부터 쌓는다. 출발점은 "한 사건의 놀람"이다. 거기서 entropy, cross-entropy, KL divergence, 최대우도(MLE)까지 한 칸도 건너뛰지 않고 잇는다. 사슬의 끝에서 00장 §0.5의 가 "one-hot 라벨에 특수화한 cross-entropy"라는 정체를 드러낸다.
이 장이 세우는 개념 사슬을 먼저 한 장으로 본다. 아래 그림은 확률에서 출발해 분류 손실과 최대우도로 갈라지는 흐름이다.
읽고 나면 손에 쥐게 될 결론은 여섯 가지다.
- CE는 한 단어로 "놀람의 평균"이다. 한 사건의 놀람은 . 이걸 진짜 분포 로 평균 내면 entropy 다. 모델 분포 의 놀람을 진짜 분포 로 평균 내면 cross-entropy 다.
- 분류의 는 CE의 특수경우다. 라벨이 one-hot이면 합에서 정답 항만 살아남아 가 된다.
- CE와 KL은 상수 하나 차이다: . 는 진짜 분포만의 성질이라 모델과 무관한 상수다.
- Gibbs 부등식 을 Jensen으로 증명한다(§1.5). 등호는 일 때만이다. 여기서 가 나오고, CE 손실의 하한이 임이 따라온다.
- CE 최소화는 최대우도추정(MLE)과 같다. 평균 음의 로그우도가 경험분포에 대한 cross-entropy와 글자 그대로 같기 때문이다(§1.6).
- CE/KL은 거리(metric)가 아니다. 로 비대칭이다(§1.8).
1.1 한 사건의 "놀람" — self-information
정의: 왜 음의 로그인가
확률 로 일어나는 한 사건 의 self-information(자기정보, 놀람)을 다음으로 정의한다.
이름은 거창하지만 뜻은 단순하다. "이 사건이 일어났다는 걸 알았을 때 얼마나 놀랐나"이고, 곧 "얼마나 새로운 정보를 얻었나"이다.
왜 하필 이 식일까. 좋은 놀람 측정자라면 마땅히 가져야 할 상식적 요구사항을 적어 보면, 위 식이 그걸 유일하게 만족한다는 게 드러난다.
- 드문 사건일수록 놀람이 커야 한다. 가 작을수록 가 커야 한다. 가 커지고 도 커진다. ✔
- 확실한 사건()은 놀람이 0. "해가 동쪽에서 떴다"는 소식엔 정보가 없다. . ✔
- 불가능에 가까운 사건()은 놀람이 무한대. . ✔
- 독립 사건의 놀람은 더해져야 한다(가산성). 이것이 로그를 강제한다.
요구사항 1~3만으로는 부족하다. "작은 에서 크고, 1에서 0, 0에서 무한대"인 함수는 여럿이다( 같은 것도 된다). 결정타는 4번 가산성이다.
가산성이 로그를 강제한다
두 사건 가 독립이면 동시에 일어날 확률은 곱이다: . 그런데 정보(놀람)는 곱이 아니라 더해지는 게 자연스럽다. "오늘 비가 왔다(놀람 )"와 "주가가 올랐다(놀람 )"가 서로 무관하면, 둘 다 들었을 때의 총 놀람은 여야 한다.
"확률은 곱, 정보는 합"을 잇는 함수는 로그뿐이다. 곱을 합으로 바꾸는 유일한 연속함수가 로그다(§0.3).
가 그대로 가산성으로 번역됐다. 그래서 놀람의 정의에 로그가 들어간다.
작은 예제 — 동전과 주사위
밑 2(bit)로 계산한다. "정보 1 bit = 예/아니오 질문 한 번으로 가려지는 불확실성"이라 읽으면 직관적이다.
| 사건 | 직관 | ||
|---|---|---|---|
| 공정 동전이 앞면 | bit | 예/아니오 1번이면 충분 | |
| 공정 주사위가 "3" | bit | 6갈래는 질문 2~3번어치 | |
| 주사위 두 개가 "3,5"(독립) | bit | (가산성!) | |
| 편향동전()이 앞면 | bit | 예상대로라 거의 안 놀람 | |
| 같은 동전이 뒷면(희귀) | bit | 드무니까 크게 놀람 |
마지막 두 줄이 핵심 직관이다. 예상한 일엔 거의 안 놀라고( 작음), 뜻밖의 일엔 크게 놀란다( 큼). 분류기가 정답을 0.9로 예측해서 맞히면 거의 안 놀라고 손실이 작다. 정답에 0.1밖에 안 줬는데 그게 정답이면 크게 놀라고 손실이 크다. 벌써 cross-entropy 손실의 그림자가 보인다.
1.2 entropy — 평균 놀람, 불확실성
정의: self-information의 기댓값
한 사건의 놀람이 였다. 그럼 분포 전체의 "평균적 놀람"은 자연스럽게 기댓값(§0.4)으로 정의된다. 이것이 Shannon entropy다.
관례 하나를 둔다. 인 항은 으로 둔다. 이라 모순이 없다. one-hot CE에서 0인 항들이 사라지는 근거가 이것이다.
엔트로피는 세 가지로 읽을 수 있고, 전부 같은 말이다.
- (놀람) 이 분포에서 사건을 하나 뽑으면 평균적으로 얼마나 놀라는가.
- (불확실성) 결과를 알기 전 얼마나 모르는가. 클수록 더 예측 불가다.
- (부호 길이) 이 분포의 메시지를 최적으로 압축하면 사건당 평균 몇 bit가 드는가(Shannon 부호화 정리). 는 도달 가능한 가장 짧은 평균 부호 길이다. 곧 볼 cross-entropy가 "틀린 부호 길이"인 것과 대비된다.
언제 최대이고 언제 0인가
- 확정분포(한 결과가 확률 1) → . 놀랄 게 없다. . one-hot 라벨이 바로 이 경우이고, CE 하한이 0인 이유가 여기 있다(§1.4).
- 균등분포(개 결과가 각 ) → 로 최대. 가장 예측 불가하다. 같은 결과 수에서 균등분포보다 엔트로피가 큰 분포는 없다. 이건 §1.5에서 KL로 증명한다.
동전 엔트로피 — 직접 계산
인 동전의 엔트로피는 . bit 단위로 직접 계산하면 아래와 같다.
| (앞 확률) | (bits) | (nats) | 한마디 |
|---|---|---|---|
| 최대 불확실 — 진짜 예측 불가, 1 bit 꽉 채움 | |||
| 약간 치우침 | |||
| (또는 ) | 꽤 치우침 — 어느 쪽 나올지 대충 안다 | ||
| (또는 ) | 거의 확정 — 놀랄 일 거의 없음 | ||
| (또는 ) | 확정 — 0 |
곡선은 에서 봉우리(최대 1 bit)이고, 양 끝()에서 0으로 떨어지는 위로 볼록한 종 모양이다. 동전이 공정할수록 결과를 모르고 불확실이 크다. 한쪽으로 쏠릴수록 결과를 미리 알 수 있고 불확실이 작다. 공정 6면 주사위는 bit nat이다. 결과가 많고 균등할수록 엔트로피가 크다.
아래 그림은 한 사건의 놀람을 진짜 분포로 평균하면 엔트로피가 됨을 보여 준다.
1.3 cross-entropy — 이 책의 핵심
정의: "틀린 분포 의 놀람을, 진짜 분포 로 평균"
엔트로피는 "진짜 분포 의 놀람 를, 진짜 분포 로 평균"이었다. 여기서 한 글자만 바꾼다. 놀람을 잴 때 진짜 대신 모델이 믿는 분포 를 쓴다. 평균은 여전히 진짜 로 낸다. 사건은 현실에서 진짜 분포대로 일어나기 때문이다.
이것이 cross-entropy(교차 엔트로피)다. 교차(cross)인 이유는 두 분포가 엇갈려 들어가기 때문이다. 평균 가중치는 에서, 놀람은 에서 온다.
두 식을 나란히 두면 차이가 한눈에 보인다.
안쪽 로그의 분포만 로 바뀌었다. 그래서 이면 로 자동 일치한다.
여기서 는 00장 §0.6에서 못 박은 진짜 분포다(정답 측). 는 모델 예측 분포다. 정보이론 장이므로 는 진짜 분포, 는 예측 분포로 읽는다.
부호화 직관 — "남의 코드북으로 내 메시지 보내기"
엔트로피 는 "진짜 분포 에 맞춰 만든 최적 부호의 평균 길이"였다. 그런데 우리가 분포를 잘못 알아서, 실제로는 인 데이터를 가 진짜인 줄 알고 만든 부호로 보낸다고 하자. 그 부호는 사건 에 길이 를 배정한다. 진짜로 사건이 일어나는 빈도는 다. 그러니 평균 부호 길이는
즉 cross-entropy는 "틀린 코드북 로, 진짜 분포 의 메시지를 보낼 때의 평균 길이"다. 틀린 코드북을 썼으니 최적()보다 길어질 수밖에 없다. 이 "절대 짧아질 수 없음"은 §1.5의 로 정식화된다. 모델 학습이란 코드북 를 진짜 에 맞춰 고쳐서 이 낭비를 0으로 줄여가는 일이다.
1.4 분류로의 특수화 — 의 정체
이제 00장 §0.5의 가 어디서 왔는지 정확히 보인다. 분류에서 정답 라벨은 보통 one-hot이다. 진짜 클래스가 라면 진짜 분포는 이렇다.
이 (확정분포)를 cross-entropy 정의에 그대로 대입한다. 합은 모든 클래스 에 대해 잡는다.
인 항은 전부 이라 사라진다(, §1.2 관례). 정답 항 만 남는다.
이것이 00장 의 정체다. "one-hot 라벨에 특수화한 cross-entropy"인 것이다. (이 책 기호로 )은 모델이 정답 클래스에 준 확률이고, 는 §1.1의 self-information다. 곧 "모델이 정답을 보고 느낀 놀람"이다. 두 끝값을 다시 짚는다.
- (정답을 확신): → 손실 0. 안 놀람.
- (정답을 거의 배제): → 손실 무한대. 크게 놀람.
00장 §0.5의 "정답에 얼마나 놀랐는가" 한 줄이 정확히 이 식이다. one-hot이 아닌 soft label이면 정답 항만 남지 않고 모든 항이 살아남는다(§1.7, label smoothing의 뿌리).
아래 그림은 one-hot 라벨을 넣으면 cross-entropy가 정답 항 하나로 줄어드는 과정이다.
작은 예제 (전체 계산은 §1.7)
진짜 정답이 클래스 1(one-hot )이고 모델 예측이 이라 하자. 정답 클래스에 0.7을 줬으므로
예측이 나빠져 가 되면 nat으로 손실이 커진다. 정답 확률이 떨어질수록 더 놀라고, 손실이 커진다. ✔
1.5 KL divergence — cross-entropy와 entropy의 "차이"
정의와 핵심 분해
두 분포 사이의 Kullback–Leibler divergence(상대 엔트로피)는 다음으로 정의한다.
직관은 이렇다. 진짜 분포가 인데 로 믿었을 때, 사건당 평균적으로 더 낭비하는 놀람(부호 길이)이다. §1.3의 부호화 비유로는 "틀린 코드북 가 최적보다 얼마나 더 긴가"다.
이제 (§0.3)를 써서 풀면 KL이 CE와 H로 깔끔하게 쪼개진다.
양변을 정리하면 이 책의 중심 항등식이 나온다.
말로 풀면 이렇다. cross-entropy는 entropy(피할 수 없는 본질적 불확실성)에 KL(모델이 틀려서 생기는 추가 낭비)을 더한 것이다. 학습이 줄일 수 있는 건 두 번째 항 뿐이다. 는 데이터가 정하는 상수이기 때문이다.
아래 그림은 이 분해를 한 줄로 보여 준다. 가운데 항 가 상수, 오른쪽 항 이 학습이 줄이는 부분이다.
Gibbs 부등식 — Jensen으로, 학부 눈높이로 천천히
위 분해가 의미를 가지려면 이 보장돼야 한다. 거기서 가 나온다. 이를 Gibbs 부등식이라 하고, Jensen 부등식으로 증명한다. 한 줄도 안 막히게 보조 도구부터 깐다.
보조 도구 1 — 오목함수란? 함수 가 오목(concave, 위로 볼록)하다는 건 그래프가 활처럼 위로 휘었다는 뜻이다. 두 점을 잡아 직선(현)을 그으면, 그 직선이 항상 그래프 아래에 깔린다. 로그가 그렇다. 이라 어디서나 위로 볼록하다. 2차 미분이 음수면 오목이다.
보조 도구 2 — Jensen 부등식. 가 오목하면, 임의의 확률가중 평균에 대해 다음이 성립한다.
왜 성립하는지는 직관으로 잡힌다. 오목함수는 위로 휘었다. 그래서 "여러 값을 함수에 먼저 넣고 평균낸 것"(왼쪽)보다 "값들을 먼저 평균낸 뒤 함수에 넣은 것"(오른쪽)이 항상 위다. 활의 안쪽(현)이 바깥쪽(곡선)보다 아래에 있는 것과 같다. 등호는 가 사실상 한 값으로 고정(상수)이거나, 가 그 구간에서 직선일 때만 성립한다.
이제 증명에 들어간다. 목표는 이다. 다루기 쉽게 부호를 뒤집어 을 보인다.
증명 — 1단계: 부호 뒤집고 정리. 인데 인 곳이 있으면 그 항이 라 으로 자명하다. 그러니 "이면 "인 경우만 다룬다. 인 항은 합에 기여하지 않으므로(), 인 항만 모은다.
부호를 뒤집으면 분수가 에서 로 뒤집힌다.
2단계: Jensen 적용. 이건 "어떤 양 의 로그의 기댓값"이다. 는 오목이므로 보조 도구 2를 그대로 쓴다. 기댓값을 로그 안으로 밀어넣을 수 있다(부등호 한 번 발생).
3단계: 안쪽 기댓값을 계산. 기댓값의 정의(§0.4)를 펴면 가 분모의 와 약분된다.
4단계: 마무리. 마지막 합은 의 일부 확률만 더한 것이라 1을 넘을 수 없다: . 따라서
양변에 을 곱하면(부등호 뒤집힘) 결론이다.
5단계: 등호는 일 때만. 위 사슬에서 등호가 되려면 두 부등식이 모두 등호여야 한다.
- (i) Jensen 등호 → 평균낸 양 가 ( 하에서) 상수 여야 한다. 즉 .
- (ii) 4단계 부등식 등호 → , 즉 인 곳 밖으로 가 새지 않는다.
(i)을 모든 에 대해 더하면 다. 그런데 도 분포라 이다. 따라서 , 곧 , 즉 다. 역으로 이면 모든 로그항이 이라 이다. 그러므로 등호는 정확히 일 때만이다.
아래 그림은 이 증명의 다섯 단계를 한 줄로 요약한다.
따름정리들 — 한 번에 정리
- (등호는 ). 중심 항등식 에 을 넣으면 즉시 나온다. 틀린 분포로 부호화하면 최적보다 절대 짧아질 수 없다는 §1.3의 코드북 비유가 정식화됐다. 따라서 CE 손실의 하한은 다.
- 분류(one-hot): 이므로 CE 하한은 0이다. 모델이 정답을 완벽히 확신()할 때만 도달한다.
- 균등분포가 엔트로피 최대. 를 균등분포 로 두면 , 즉 . §1.2에서 주장만 했던 것이 여기서 증명된다.
왜 "CE 최소화 = KL 최소화"인가 — 학습의 핵심
모델 를 파라미터 로 학습한다고 하자. 진짜 분포 는 우리가 못 바꾼다(데이터가 정한다). 중심 항등식을 의 함수로 보면 이렇다.
는 로 미분하면 0인 상수다. 그러므로 다음이 성립한다.
CE를 최소화하는 것과 KL을 최소화하는 것은 같은 최적화 문제다. 손실 값은 만큼 다르지만 최적 는 동일하다. 그리고 이며 은 일 때뿐이다. 따라서 CE 최소화는 예측분포 를 진짜분포 에 가능한 한 붙이는 일이다. 이것이 "cross-entropy 손실을 줄인다"의 진짜 의미다.
1.6 최대우도(MLE)와의 동치
이제 정보이론(CE)과 통계학(우도)이 같은 것임을 보인다. 학부생이 한 줄씩 따라올 수 있게 단계로 푼다.
상황. 데이터 를 모델 로 설명한다. 통계학의 우도(likelihood)는 "이 모델이 관측 데이터를 만들어 낼 확률"이고, i.i.d.(독립동일분포) 가정 하에 곱이다.
최대우도추정(MLE)은 이 을 가장 크게 하는 를 고른다.
1단계 — 로그를 씌운다. 곱은 다루기 어렵고 수치적으로도 위험하다(아주 작은 수의 곱은 언더플로로 0이 된다). 그래서 단조증가하는 를 씌운다. 는 변하지 않는다(§0.3).
2단계 — 부호를 뒤집고 으로 나눈다. 최적화는 보통 최소화로 통일하므로 음수를 붙인다(). 데이터 크기에 안 휘둘리게 평균낸다. 이것이 평균 음의 로그우도(mean Negative Log-Likelihood, NLL)다.
3단계 — 경험분포를 끼워 넣는다. 데이터로부터 경험분포(empirical distribution) 를 정의한다: . 그러면 "샘플 합/"은 "에 대한 기댓값"과 정확히 같다(). 이걸 NLL에 적용하면 다음과 같다.
결론.
평균 음의 로그우도는 경험분포에 대한 cross-entropy와 글자 그대로 같다. 따라서 세 문장이 동의어가 된다.
CE 최소화는 최대우도추정이고, 경험분포와의 KL 최소화이기도 하다. 분류에서 한 샘플의 라벨이 one-hot이면 다. 그래서 위 NLL은 우리가 매일 쓰는 그 자체가 된다.
아래 그림은 우도에서 출발해 cross-entropy(그리고 KL)에 닿는 변형 단계다.
1.7 worked example 모음 — 전부 직접 계산
아래 숫자는 모두 직접 계산·검증한 값이다. 관례 . nat() 기준이며 필요한 곳에 bit도 병기한다.
① 깔끔한 정답: one-hot , 예측
| 양 | 계산 | 값 |
|---|---|---|
| one-hot → 확정분포 → | nat | |
| (정답 항만) | nat bit | |
| nat |
one-hot이라 이므로 이 정확히 같다(§1.5 따름정리). 손실 전부가 "모델이 틀려서 생긴 낭비"다.
② 예측이 나빠지면 CE가 커진다 (같은 one-hot )
| 예측 | 정답 확률 | bit | |
|---|---|---|---|
| nat | |||
| nat | |||
| nat | |||
정답 확률이 로 떨어질수록 손실이 으로 단조 증가한다. 정답을 의심할수록 더 놀라고 손실이 커진다(00장 §0.5 그대로). 반대로 정답을 완벽히 확신하면 손실이 0으로 간다(하한, §1.5).
③ soft label — label smoothing 예고
라벨이 one-hot이 아니라 "정답일 확률 0.8, 나머지에 0.1씩"인 soft label이라 하자. 이때는 cross-entropy의 모든 항이 살아남는다(§1.4와 대비). 예측은 같은 .
| 양 | 값 (nat) | 메모 |
|---|---|---|
| soft label이라 (본질적 불확실성 존재) | ||
| 모든 항 합산 | ||
| , 직접 KL 계산과 일치 ✔ |
핵심 차이는 하한이다. one-hot일 땐 이라 CE 하한이 0이었다. soft label에선 이라 CE를 아무리 줄여도 0.639 밑으로 못 내려간다. 완벽 예측 여도 다. 이것이 label smoothing의 작동 원리다. 라벨을 살짝 부드럽게 만들어 모델이 정답에 지나치게 확신()하는 걸 막는다(과신 억제). 자세한 메커니즘과 수치는 04장이 다룬다.
④ 비대칭성 데모 —
두 분포 , 로 계산한다.
이므로 KL은 방향에 따라 값이 다르다. 그래서 "와 사이 거리"라고 부르면 안 된다(§1.8). CE도 마찬가지로 다.
1.8 단위·perplexity·용어표·오개념
bits vs nats (실무 관점)
- bit(): 통신·압축의 자연 단위다. "예/아니오 질문 몇 번?" 직관에 맞다.
- nat(): 딥러닝의 기본이다. 프레임워크의
cross_entropy,log_softmax,nll_loss는 전부 자연로그 기반이다(미분이 깔끔하다). 밑이 다르면 손실 값은 상수배로 달라진다. 하지만 (최적 파라미터)은 변하지 않으므로 학습 결과는 같다.
perplexity — 한 줄 예고
언어모델 평가에서 자주 보는 perplexity는 cross-entropy의 지수다.
직관은 "모델이 다음 토큰에서 몇 갈래로 헷갈리고 있나"(유효 선택지 수)다. 균등분포 갈래면 라 로 정확히 선택지 수가 나온다. CE가 낮을수록 PPL이 낮고(덜 헷갈림) 좋은 모델이다. 자세한 건 04장 §4.4에서 다룬다.
정보이론 ↔ ML 용어 대응표
| 정보이론 용어 | 기호/식 | ML에서의 정체 |
|---|---|---|
| self-information(놀람) | 한 샘플의 손실 기여(one-hot 정답일 때 ) | |
| entropy | 라벨 자체의 불확실성. one-hot이면 0 → CE 손실 하한 0 | |
| cross-entropy | 분류 표준 손실(categorical CE). one-hot 특수화 = | |
| KL divergence | 지식증류(distillation)·VAE 정칙화·"예측을 타깃에 붙이기" | |
| negative log-likelihood | . PyTorch nll_loss/cross_entropy |
|
| maximum likelihood | cross-entropy(§1.6 동치) | |
| perplexity | 언어모델 평가지표("유효 선택지 수") |
흔한 오개념
- "CE/KL은 분포 사이 거리(metric)다" — 아니다. 수학적 거리는 (i) 대칭 , (ii) 삼각부등식, (iii) 를 모두 만족해야 한다. KL은 비대칭(§1.7④: )이고 삼각부등식도 안 지킨다. (iii)만 만족한다. 그래서 "거리"가 아니라 발산(divergence)이라 부른다. "분포를 가깝게 한다"는 비유는 직관용일 뿐이다.
- "CE 손실이 0이면 완벽" — 조건부. one-hot 라벨에서만 하한이 0이다. soft label이면 하한이 이라 0에 못 닿는다(§1.7③).
- "엔트로피가 크면 나쁘다" — 아니다. 는 데이터의 본질적 불확실성이지 모델 잘못이 아니다. 학습이 줄이는 건 가 아니라 뿐이다.
- "은 정의 안 됨" — 관례로 0. 이라 모순 없이 으로 둔다. one-hot CE에서 0인 항들이 사라지는 근거다.
1.9 전체 개념 지도 (한 장 요약)
아래 그림은 이 장에서 세운 사슬 전체다. 기초에서 출발해 분류 손실·MLE로 갈라졌다가, "min CE = min KL = MLE"로 다시 모인다.
cross-entropy는 모델 분포 의 놀람을 진짜 분포 로 평균한 것이고, 라벨이 one-hot이면 정답 항만 살아남아 가 된다. CE 최소화는 KL 최소화이자 MLE다. 그런데 이 이야기는 가 이미 확률분포라고 가정했다. 실제 모델은 확률이 아니라 raw 점수(로짓 )를 낸다. 그 로짓을 확률 로 바꾸고 거기서 categorical CE와 BCE가 떨어지는 파이프라인은 다음 장(02)에서 본다.
출처
정보이론 표준 결과는 아래 표준 문헌에 근거한다. 본 장의 수치 예제는 모두 직접 계산·검증했다.
- Shannon, C. E. (1948). "A Mathematical Theory of Communication." Bell System Technical Journal, 27(3): 379–423; 27(4): 623–656. — entropy , self-information, 부호화 정리의 원전. https://onlinelibrary.wiley.com/doi/10.1002/j.1538-7305.1948.tb01338.x
- Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley. — entropy / relative entropy(KL) / cross-entropy 정의, Jensen 부등식과 따름정리, Gibbs 부등식 .
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning, Ch.3 & §5.5. — ML 관점의 self-information·entropy·KL·cross-entropy, "NLL 최소화 = KL 최소화 = MLE" 동치. https://www.deeplearningbook.org/contents/prob.html
- Wikipedia, "Cross-entropy." — , 분해, MLE 연결. https://en.wikipedia.org/wiki/Cross-entropy
- Wikipedia, "Kullback–Leibler divergence." — Gibbs 부등식, 비대칭성. https://en.wikipedia.org/wiki/Kullback–Leibler_divergence