ROC 곡선(Receiver Operating Characteristic Curve)
ROC 곡선(Receiver Operation Characteristic Curve: 수신자 조작 특성 곡선)은 모든 분류 임계값(Classification Thresholds)에서 분류 모델의 성능을 보여주는 그래프입니다. 이 곡선은 두 매개변수를 갖습니다.
- TPR(True Positive Rate): 참 양성 비율(= 재현율)
=> TPR = TP / (TP + FN) - FPR(False Positive Rate): 허위 양성
=> FPR = FP / (FP + TN)
ROC 곡선은 FP 비율에 대한 TP의 비율을 나타내는 곡선으로 FP 비율값이 낮으면서 TP 비율값은 높은 것이 더 좋은 정확도를 보이는 좋은 모델입니다. 이에 따라 곡선이 위로 볼록할 수록 더 좋은 모델입니다.
(참고 링크: 조대협의 블로그 - 분류모델(Classification)의 성능 평가)
AUC(Area Under the ROC Curve: ROC 곡선의 아래 영역)
AUC는 ROC 곡선의 아래 영역을 의미하며 예측이 얼마나 잘 평가되었는지 측정 할 때 사용합니다. 아래의 그림과 같이 ROC 곡선의 아래 영역이 AUC가 됩니다.
AUC를 통해 모델이 임의 양성 예제를 임의 음성 예제보다 더 높게 평가할 확률을 구할 수 있습니다. 에를 들어 다음 예에서는 로지스틱 회귀 예측의 오름차순으로 왼쪽에서 오른쪽으로 정렬되어 있습니다.
여기서 AUC는 임의의 양성(초록색) 예제가 임의의 음성(빨간색) 예제의 오른쪽에 배치되는 확률을 나타냅니다.
AUC는 두 가지 이유로 유용하게 사용 될 수 있습니다.
- AUC는 척도 불변(Scale-Invariant): 절대값이 아닌, 예측이 얼마나 잘 평가되었는지는 측정
- AUC는 분류 임계값 불변(Classification-Threshold-Invariant): 어떤 분류 임계값이 선택되었는지와 무관하게 모델의 에측 품질을 측정
'Muchine Learning > Google MLCC' 카테고리의 다른 글
11-3 분류: 정밀도와 재현율(Precision and Recall) (0) | 2018.09.07 |
---|---|
11-2 분류: 정확성(Accuracy) (0) | 2018.09.06 |
11-1 분류: 임계값(Threshold), 참(True)과 거짓(False), 양(Positive)과 음(Negative) (0) | 2018.09.06 |
10-1 로지스틱 회귀(Logistic Regression): 확률 계산 & 로그 손실 (0) | 2018.09.06 |
09-2 단순성을 위한 정규화: 람다 (0) | 2018.09.06 |