ROC·AUC 완전 입문 — 처음부터 끝까지 따라 읽는 한 권

임계값 선택법: 곡선 위에서 한 점을 고르기

목차

학습목표 — 이 장을 마치면 다음을 할 수 있다.

  • ROC 곡선과 AUC는 임계값과 무관한 요약인데, 실제 배포에서는 임계값 하나를 반드시 골라야 한다는 차이를 구분한다.
  • Youden's J = TPR − FPR를 최대로 만드는 점을 곡선 위에서 찾는다.
  • FN과 FP의 비용·이익이 비대칭일 때 왜 운영점이 달라지는지 정당화한다.

좋은 곡선을 그렸는데, 그래서 어디에 서야 하나

앞 챕터들에서 우리는 한 분류기의 ROC 곡선을 그리고, 그 아래 면적인 AUC로 "이 분류기는 얼마나 잘 순위를 매기는가"를 한 숫자로 요약했다. 좋은 분류기는 AUC가 0.5(랜덤)보다 한참 높았다.

그런데 여기서 묘한 점이 하나 있다. ROC 곡선은 모든 임계값을 한꺼번에 담은 그림이다. 곡선 위의 점 하나하나가 서로 다른 임계값에 대응한다(02 챕터에서 임계값을 스윕하며 점을 찍은 것을 떠올려 보라). 그래서 AUC는 "임계값을 무엇으로 정하든 상관없이" 분류기의 순위 능력을 잰다 — 이것이 AUC가 임계값 무관(threshold-independent) 요약이라 불리는 이유다.

하지만 현실의 시스템은 그렇게 우아하게 작동하지 않는다. 스팸 필터는 결국 메일 하나를 받은편지함에 넣을지 스팸함에 넣을지 결정해야 한다. 암 검사는 환자를 추가검사로 보낼지 집으로 보낼지 결정해야 한다. 결정을 내리려면 점수를 둘로 가르는 선 하나, 곧 임계값 하나를 골라야 한다. 곡선 전체로는 결정을 못 한다.

비유하자면, ROC 곡선은 산을 오르는 모든 등산로를 한 장에 그린 지도다. 지도는 "여기 길들이 있다"를 보여줄 뿐, "오늘 너는 이 길로 가라"고 정해 주지는 않는다. 그 선택은 사람의 몫이다.

이 챕터는 바로 그 선택을 다룬다. 곡선 위의 무수히 많은 점 중에서 어느 한 점에 설 것인가 — 이 점을 운영점(operating point) 이라 부른다.

광고 · Advertisements

운영점이란 무엇인가: 곡선 위의 한 점

다시 정리하자. ROC 곡선 위의 각 점은 (FPR, TPR) 한 쌍이고, 그 점은 어떤 임계값 하나에서 나온 혼동행렬의 결과다. 임계값을 고른다는 것은 곧 곡선 위의 점 하나를 고른다는 뜻이고, 그 점이 우리 시스템의 운영점이 된다.

  • 임계값을 높게 잡으면 → 양성 예측이 적어지고 → 곡선의 왼쪽 아래(낮은 FPR, 낮은 TPR) 점에 선다. 거짓경보는 거의 없지만 놓치는 양성도 많다.
  • 임계값을 낮게 잡으면 → 양성 예측이 많아지고 → 곡선의 오른쪽 위(높은 FPR, 높은 TPR) 점에 선다. 양성을 거의 다 잡지만 거짓경보도 많아진다.

곡선 자체(그리고 AUC)는 이 선택과 무관하게 그대로다. 우리가 바꾸는 것은 "그 곡선 위 어디에 서느냐"뿐이다. 이 구분 — 임계값을 바꿔도 곡선·AUC는 불변, 그러나 운영점은 임계값으로 정해진다 — 이 챕터의 핵심이고, 08 챕터에서 다시 짚을 흔한 혼동의 씨앗이기도 하다.

그렇다면 어느 점을 골라야 할까? 두 가지 대표적인 방법이 있다. 하나는 균형을 보는 Youden's J, 다른 하나는 비용을 보는 방법이다.

Youden's J: 대각선에서 가장 멀리

가장 간단하고 널리 쓰이는 기준부터 보자. Youden's J 통계량은 다음과 같이 정의된다.

J=TPRFPRJ = \text{TPR} - \text{FPR}

말로 풀면, "맞게 잡은 양성의 비율에서 잘못 울린 거짓경보의 비율을 뺀 값"이다. TPR은 높을수록 좋고 FPR은 낮을수록 좋으니, J가 클수록 두 마리 토끼를 동시에 잘 잡은 것이다. 우리는 곡선 위의 모든 점에서 J를 계산하고, J가 가장 큰 점을 운영점으로 고른다.

여기에 아주 예쁜 기하학적 의미가 있다. ROC 평면의 대각선 y = x는 랜덤 분류기(동전 던지기)를 뜻했다(02 챕터). 대각선 위의 점에서는 TPR = FPR이므로 J = 0이다. 그런데 J = TPR − FPR는 곡선 위의 점에서 대각선까지의 수직 거리와 정확히 비례한다. 즉,

Youden's J를 최대로 하는 점 = ROC 곡선에서 대각선(랜덤선)으로부터 가장 멀리 떨어진 점.

대각선이 "아무 정보 없음"을 뜻하니, 거기서 가장 멀리 떨어진 점은 "랜덤 대비 가장 이득을 많이 본" 운영점인 셈이다. 직관적으로도 말이 된다.

구체적인 숫자로 보자. 양성 점수가 음성보다 평균적으로 높은(잘 분리된) 한 분류기 — AUC가 약 0.86인 좋은 분류기 — 의 ROC를 그리면, J가 최대가 되는 점은 대략 (FPR ≈ 0.19, TPR ≈ 0.76) 에 놓이고, 이때 J ≈ 0.57이다. 이 점에서 분류기는 양성의 약 76%를 잡으면서 음성의 약 19%만 거짓경보로 흘린다. 아래 그림이 그 점과, 그 점에서 대각선까지 내려긋는 수직 화살표를 보여준다.

좋은 분류기의 ROC 곡선 위에서 Youden's J가 최대가 되는 운영점과, 그 점에서 대각선까지의 수직 거리를 표시한 그림
그림 1. 좋은 분류기의 ROC 곡선 위에서 Youden's J가 최대가 되는 운영점과, 그 점에서 대각선까지의 수직 거리를 표시한 그림

위 그림에서 J 최대점은 대각선에서 가장 멀리 떨어진, 곡선이 좌상단 쪽으로 가장 "부풀어 오른" 지점에 해당한다.

비용·이익: 놓치는 게 무서운가, 헛수고가 무서운가

Youden's J는 TPR과 FPR을 동등하게 취급한다 — 1만큼의 TPR 이득과 1만큼의 FPR 손해를 같은 무게로 빼니까. 그런데 현실에서 FN(놓침)과 FP(거짓경보)의 대가는 거의 항상 다르다. 여기서 비용 기반 선택이 등장한다.

두 가지 상반된 상황을 비교해 보자.

  • FN이 FP보다 훨씬 비싼 경우 — 예: 암 검사. 암을 놓치면(FN) 환자가 치료 시기를 놓쳐 생명을 잃을 수 있다. 반면 건강한 사람을 양성으로 잘못 분류해(FP) 추가검사를 받게 하는 것은 번거롭고 비용이 들지만 회복 가능한 손해다. 놓침이 더 무섭다 → 임계값을 낮춰서 양성을 최대한 많이 잡는다 → 운영점을 곡선의 오른쪽 위로 옮긴다(재현율↑, 거짓경보 일부 감수).

  • FP가 FN보다 훨씬 비싼 경우 — 예: 정상 메일을 스팸으로 보내는 필터. 중요한 메일을 스팸함으로 보내(FP) 잃어버리는 것은 치명적이고, 스팸 몇 개가 받은편지함에 들어오는 것(FN)은 그저 성가실 뿐이다. 거짓경보가 더 무섭다 → 임계값을 높여서 확실한 것만 양성으로 → 운영점을 곡선의 왼쪽 아래로 옮긴다(정밀도↑, 일부 놓침 감수).

그래서 같은 ROC 곡선, 같은 분류기라도 무엇이 무서운가에 따라 서야 할 점이 달라진다. 입문 수준에서 기억할 한 줄은 이것이다.

FN(놓침)이 무서우면 임계값을 낮춰 곡선의 오른쪽 위로, FP(거짓경보)가 무서우면 임계값을 높여 곡선의 왼쪽 아래로.

(더 엄밀하게는, 최적 운영점에서 ROC 곡선의 기울기가 FN과 FP의 비용비, 그리고 양성·음성의 비율에 의해 결정된다. 이 기울기 공식은 입문 범위를 넘으니, 여기서는 "비용 비대칭이 운영점을 곡선을 따라 밀어낸다"는 방향 감각만 가져가면 충분하다.)

비유: 화재경보기에는 민감도 다이얼이 있다고 상상하자. 사람 목숨이 걸린 병원은 다이얼을 민감하게 돌려 작은 연기에도 울리게 한다 — 거짓경보(FP)를 좀 감수하더라도 진짜 불(양성)을 절대 놓치지 않으려는 것이다. 반대로 거짓경보 한 번에 라인 전체를 멈춰야 하는 비싼 공장은 다이얼을 둔감하게 돌려, 확실할 때만 울리게 한다. 같은 경보기, 다른 다이얼 — 이것이 같은 ROC, 다른 운영점이다.

광고 · Advertisements

정리: 요약은 곡선이, 결정은 사람이

이 챕터의 논리를 한 흐름으로 묶어 보자. ROC 곡선과 AUC는 임계값과 무관한 요약이다. 하지만 배포하려면 임계값 하나로 운영점을 골라야 하고, 그 선택의 기준으로 우리는 (1) TPR과 FPR을 균형 있게 보는 Youden's J 최대점, 또는 (2) FN·FP 비용의 비대칭을 반영하는 비용 기반 선택을 쓴다.

아래 그림은 "임계값 무관 요약"에서 "운영점 선택"으로 넘어가는 흐름과, 운영점을 고르는 두 갈래를 보여준다.

ROC 곡선 / AUC
(임계값 무관 요약)

운영점 선택
(임계값 1개 고름)

Youden's J
TPR−FPR 최대

비용 기반
FN·FP 비용 비대칭

여기서 한 가지 함정이 자라난다. "ROC 곡선이 임계값을 정해 주는 것 아닌가?"라는 오해다. 아니다 — 곡선은 모든 선택지를 펼쳐 보일 뿐, 어느 점에 설지는 비용과 유병률을 따져 사람이 고른다. 그리고 데이터가 심하게 불균형하면 ROC 곡선 자체가 우리를 속일 수도 있다. 다음 챕터 06 — 불균형 데이터에서 그 함정을 파헤친다.

광고 · Advertisements
이 시리즈 전체 챕터

학습경로 의존맵 보기 →