분류 성능 지표, confusion matrix, precision과 recall

지도학습에서 모델을 학습시키고 이 모델의 분류 성능을 평가하기 위해 분류 성능 지표를 사용한다.

1. confusion matrix

지도 학습으로 훈련된 분류 알고리즘의 성능을 시각화할 수 있는 표.

모델이 예측한 값과 실제 값이 어떻게 일치하는지 볼 수 있다.

T/F는 예측이 맞았는지를 나타내고, P/N은 예측한 레이블을 나타냅니다. 이 구성을 기억하면 더 쉽게 이해할 수 있습니다.

2. Recall과 Precision

recall과 precision은 분류 성능을 평가하는 지표들 중 일부입니다.

Precision (정밀도): 모델이 Positive라고 예측한 것 중 실제로 Positive인 것의 비율을 나타냅니다. 즉, 모델이 예측한 Positive가 얼마나 정확한지 확인할 수 있습니다.
Recall (재현율): 실제 Positive 중에서 Positive로 정확하게 예측한 비율을 나타냅니다. 즉, 실제 Positive 샘플을 모델이 얼마나 잘 찾아냈는지를 평가합니다.

3. Precision과 Recall의 관계

Precision과 Recall 서로 trade-off 관계 입니다.

Precison은 FP를 줄이는 것에 집중하고

Recall은 FN 을 줄이는 것에 집중합니다.

모델을 훈련시키고 테스트 데이터로 평가할 때 threshold를 설정합니다. 이 threshold를 변화시키면 precision과 recall은 서로 영향을 주고 받게 됩니다.

예시 1: threshold = 0

threshold를 0로 설정하면 모델은 모든 예측 Positive로 하게 됩니다.

False Positive (FP)가 늘어나고, False Negative (FN)는 줄어듭니다 . 즉, Precision이 낮아지고 Recall은 높아집니다..

예시 2: threshold = 1

반대로, threshold를 1로 설정하면 모델은 모든 예측을 Negative로 하게 됩니다.

이 경우, False Negative(FN)은 증가하고 FP 는 줄어듭니다. 즉, Precision은 높아지고 Recall은 낮아집니다.

4. PR curve

0부터 1사이의 모든 임계값에 따라 x축을 recall, y축을 precision 로 그린 그래프입니다. recall과 precision 모두 높을 수록 좋은 모델입니다.

reference

혼동 행렬 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 기계 학습 분야의 통계적 분류 같은 문제에서 혼동 행렬(Confusion matrix)[1] 이란 지도 학습으로 훈련된 분류 알고리즘의 성능을 시각화 할 수 있는 표이다. 행렬의

ko.wikipedia.org

모델 평가하기 - 정확도만 높으면 좋은 모델?

* 카테고리 별로 읽기보다, 글 순서대로 읽는걸 추천드려요. 순서 정확도의 문제 재현율, 정밀도 F score 임계값 조절 PR curve vs ROC curve Confusion Matrix 1. 정확도의 문제 모델 성능을 비교할 때 그리고

hwi-doc.tistory.com

data summary note