본문 바로가기

R프로그래밍,통계학

분류모형 1.평가척도

반응형

 

 

 

1. 정분류율(Accurcy)

-전체중에서 맞게 예측한것의 비율

 

2. 오분류율(Error Rate)

-전체중에서 잘못예측한 것의 비율

 

3. 특이도(Specificity)

-실제 Negative 중에서 Negative로 잘 예측한 비율.

 

4. 민감도(Sensitivity)

-실제 Positive 중에서 Positive로 잘 예측한 비율.

 

5. 정확도(Precision)

-예측된 Positive 중에서 Positive로 잘 예측한 비율.

(Positive로 예측된 것 중에서 실제 Positive인 비율)

 

6. 재현율(Recall) : 민감도와 같다.

 

7. F1 score

 

 

 

#뒤에 붙는 P, N은 예측 기준이다. 

앞에 붙는 T,F 는 잘 예측했느냐(맞췄냐 틀렸냐)를 나타낸다.

 

TP : P로 잘 예측한것 -> 참값은 P

FP : P로 잘못 예측한것(틀린것) -> 즉 참값은 N

FN: N으로 잘못 예측한것(틀린것) -> 즉 참값은 P

TN: N으로 잘 예측한것 ->참값은 N

 

#좋은 모형을 판단하는 기준은?

정분류율, 민감도, 특이도가 모두 좋아야 한다.

 

 

#만약 정분류율으로만 모형을 판단한다면?

-이 예제의 경우 참 값은 Positive : 15, Negative : 985 이다.  

 

이 경우, 예측을 모두 Negative로 하면 정분류율은 985/1000 = 98.5%로 매우 높게 나온다.

하지만 민감도TP/(TP+FN) = 0, 특이도TN/(FP+TN) = 100 으로 ,

사실은 매우 안좋은 모형인 것이다.  

TP (0) FP(0)
FN(15) TN(985)

 

 

#여기서 햇갈릴 수 있는 것 : 민감도 와 정확도

민감도 :

정확도:

위 예제에서 참 값은 Positive : 15, Negative : 985 이다.  

이번에는 1000명을 모두 Positive로 예측했다고 생각해보고 둘을 비교해본다.

TP (15) FP(985)
FN(0) TN(0)

 

민감도 = 15/(15+0) = 100%  ( 실제 Positive 중에서, Positive로 맞게 예측한 비율)

정확도 = 15/(15+985) = 0.15% (예측된 Positive중에서 , Positve로 맞게 예측한 비율,
                                           Positive로 예측된 것 중에서 실제 Positive인 비율)

 

 

 

 

반응형