용어집 · ROC·AUC 완전 입문 — 처음부터 끝까지 따라 읽는 한 권

A
F
M
O
P
R
T
Y
불
양
역
예
유
이
임
재
점
정
특
혼

A

AUC (Area Under the ROC Curve): ROC 곡선 아래 면적(0~1). 1.0 = 완벽, 0.5 = 무작위, 0.5 미만 = 역분류.
03장 →
AUC의 확률 해석 / Mann–Whitney U: AUC = 무작위 양성이 무작위 음성보다 높은 점수를 받을 확률(동점 0.5). Mann–Whitney U / Wilcoxon 순위합과 같은 값.
03장 →

F

FPR (False Positive Rate): FP / N = 1 − 특이도. 실제 음성 중 잘못 양성이라 외친 비율(거짓경보율). ROC의 가로축.
00-5 →

M

macro 평균 / micro 평균: macro = 클래스별 AUC 단순평균(클래스마다 한 표, 평등 가중). micro = 전 결정 풀링(표본마다 한 표, 빈도 가중).
07장 →

O

OvR (One-vs-Rest): 다중분류를 "클래스 c = 양성, 나머지 = 음성"인 K개의 이진 ROC로 쪼개는 방식.
07장 →

P

P / N: P = 실제 양성 전부(TP + FN), N = 실제 음성 전부(FP + TN). 비율의 분모로 자주 쓰인다.
00-3 →
PR 곡선 / AP (Precision-Recall curve / Average Precision): 가로 recall·세로 precision 곡선. 랜덤 기준선 = 유병률. AP = PR 곡선 아래 면적. 불균형에서 ROC보다 정직하다.
06장 →

R

ROC 곡선 (ROC curve): 임계값을 전부 스윕하며 찍은 (FPR, TPR) 점을 이은 곡선. 모든 임계값의 성능을 한 장에 담은 지도.
02장 →
ROC 평면 / 운영점 (ROC space / Operating point): 가로 FPR·세로 TPR 평면. 곡선 위의 한 점 = 한 임계값의 결과 = 운영점. 좌상단 = 완벽, 대각선 = 무작위. , 05장
02장 → · 05장 →

T

TP / FP / FN / TN: TP = 맞힌 양성, FP = 거짓경보(실제 음성을 양성이라 함), FN = 놓침(실제 양성을 음성이라 함), TN = 맞힌 음성. 이름은 "맞혔나(T/F) + 무엇이라 예측했나(P/N)".
00-3 →

Y

Youden's J: J = TPR − FPR. 대각선에서 가장 먼 점을 운영점으로 고르는 균형 기준.
05장 →

불

불균형 데이터 (Imbalanced data): 양성이 아주 드문 데이터. 거대한 N이 FPR을 희석해 ROC를 낙관적으로 보이게 한다.
06장 →

양

양성 / 음성 (Positive / Negative): 양성 = 우리가 찾으려는 표적(좋은 것이라는 뜻이 아님), 음성 = 나머지.
00-1 →

역

역분류 (AUC < 0.5): 점수 방향이 거꾸로 붙은 상태. 점수를 반전하면 1 − AUC로 좋은 분류기가 된다. , 08장
03장 → · 08장 →

예

예측 (Prediction): 점수와 임계값을 비교해 나온 이진 판정(양성/음성).
00-2 →

유

유병률 (Prevalence): P / (P + N), 전체 중 양성 비율. PR 곡선의 랜덤 기준선.
06장 →

이

이진 분류 (Binary classification): 모든 사례를 양성/음성 두 부류 중 하나로 가르는 일.
00-1 →

임

임계값 (Threshold): 점수를 양/음으로 가르는 기준선. "점수 ≥ 임계값이면 양성 예측." 사람이 자유롭게 옮길 수 있다 — ROC가 태어나는 자리.
00-2 →

재

재현율 = TPR = 민감도 (Recall = TPR = Sensitivity): TP / P. 실제 양성 중 잡아낸 비율 — "놓치지 않는 능력". 세 이름이 같은 값. ROC의 세로축.
00-5 →

점

점수 (Score): 모델이 각 사례에 매기는 "양성일 가능성"의 연속적인 수. 그 자체로는 순위일 뿐 결정이 아니다.
00-2 →

정

정밀도 (Precision): TP / (TP + FP). 예측한 양성 중 진짜 비율. 분모가 예측 양성이라는 점이 재현율과 다르다.
00-5 →
정확도 (Accuracy): 한 임계값에서 (TP + TN) / 전체. 임계값 의존적이며, 불균형 데이터에서 부풀려진다. AUC와 다르다.
03장 →

특

특이도 (Specificity): TN / N. 실제 음성 중 옳게 거른 비율. 재현율의 음성판 짝꿍.
00-5 →

혼

혼동행렬 (Confusion matrix): 예측을 채점하는 2×2 표. 행 = 실제, 열 = 예측. 네 칸이 TP·FP·FN·TN.
00-3 →