용어집 · ROC·AUC 완전 입문 — 처음부터 끝까지 따라 읽는 한 권

A

AUC (Area Under the ROC Curve)
ROC 곡선 아래 면적(0~1). 1.0 = 완벽, 0.5 = 무작위, 0.5 미만 = 역분류.
AUC의 확률 해석 / Mann–Whitney U
AUC = 무작위 양성이 무작위 음성보다 높은 점수를 받을 확률(동점 0.5). Mann–Whitney U / Wilcoxon 순위합과 같은 값.

F

FPR (False Positive Rate)
FP / N = 1 − 특이도. 실제 음성 중 잘못 양성이라 외친 비율(거짓경보율). ROC의 가로축.

M

macro 평균 / micro 평균
macro = 클래스별 AUC 단순평균(클래스마다 한 표, 평등 가중). micro = 전 결정 풀링(표본마다 한 표, 빈도 가중).

O

OvR (One-vs-Rest)
다중분류를 "클래스 c = 양성, 나머지 = 음성"인 K개의 이진 ROC로 쪼개는 방식.

P

P / N
P = 실제 양성 전부(TP + FN), N = 실제 음성 전부(FP + TN). 비율의 분모로 자주 쓰인다.
PR 곡선 / AP (Precision-Recall curve / Average Precision)
가로 recall·세로 precision 곡선. 랜덤 기준선 = 유병률. AP = PR 곡선 아래 면적. 불균형에서 ROC보다 정직하다.

R

ROC 곡선 (ROC curve)
임계값을 전부 스윕하며 찍은 (FPR, TPR) 점을 이은 곡선. 모든 임계값의 성능을 한 장에 담은 지도.
ROC 평면 / 운영점 (ROC space / Operating point)
가로 FPR·세로 TPR 평면. 곡선 위의 한 점 = 한 임계값의 결과 = 운영점. 좌상단 = 완벽, 대각선 = 무작위. , 05장

T

TP / FP / FN / TN
TP = 맞힌 양성, FP = 거짓경보(실제 음성을 양성이라 함), FN = 놓침(실제 양성을 음성이라 함), TN = 맞힌 음성. 이름은 "맞혔나(T/F) + 무엇이라 예측했나(P/N)".

Y

Youden's J
J = TPR − FPR. 대각선에서 가장 먼 점을 운영점으로 고르는 균형 기준.

불균형 데이터 (Imbalanced data)
양성이 아주 드문 데이터. 거대한 N이 FPR을 희석해 ROC를 낙관적으로 보이게 한다.

양성 / 음성 (Positive / Negative)
양성 = 우리가 찾으려는 표적(좋은 것이라는 뜻이 아님), 음성 = 나머지.

역분류 (AUC < 0.5)
점수 방향이 거꾸로 붙은 상태. 점수를 반전하면 1 − AUC로 좋은 분류기가 된다. , 08장

예측 (Prediction)
점수와 임계값을 비교해 나온 이진 판정(양성/음성).

유병률 (Prevalence)
P / (P + N), 전체 중 양성 비율. PR 곡선의 랜덤 기준선.

이진 분류 (Binary classification)
모든 사례를 양성/음성 두 부류 중 하나로 가르는 일.

임계값 (Threshold)
점수를 양/음으로 가르는 기준선. "점수 ≥ 임계값이면 양성 예측." 사람이 자유롭게 옮길 수 있다 — ROC가 태어나는 자리.

재현율 = TPR = 민감도 (Recall = TPR = Sensitivity)
TP / P. 실제 양성 중 잡아낸 비율 — "놓치지 않는 능력". 세 이름이 같은 값. ROC의 세로축.

점수 (Score)
모델이 각 사례에 매기는 "양성일 가능성"의 연속적인 수. 그 자체로는 순위일 뿐 결정이 아니다.

정밀도 (Precision)
TP / (TP + FP). 예측한 양성 중 진짜 비율. 분모가 예측 양성이라는 점이 재현율과 다르다.
정확도 (Accuracy)
한 임계값에서 (TP + TN) / 전체. 임계값 의존적이며, 불균형 데이터에서 부풀려진다. AUC와 다르다.

특이도 (Specificity)
TN / N. 실제 음성 중 옳게 거른 비율. 재현율의 음성판 짝꿍.

혼동행렬 (Confusion matrix)
예측을 채점하는 2×2 표. 행 = 실제, 열 = 예측. 네 칸이 TP·FP·FN·TN.