본문 바로가기

R프로그래밍,통계학

분류모형2-2 분류모형의 평가- 리프트도표/Gain chart

반응형

이익도표의 개념

-이익도표는 분류모형의 성능을 평가하기 위한 척도로, 분류된 관측치에 대해 얼마나 예측이 잘 이루어졌는지 나타내기 위해 임의로 나눈 각 등급별로 반응검츌율, 반응률, 리프트 등의 정보를 산출하여 나타내는 도표이다.

-관심대상(응답고객, 이탈고객 등)을 랜덤하게 확인할 수 있는 것과 비교하여, 모형을 사용했을 대 얼마나 이익을 볼 수 있는지를 비율로 확인

-리프트 도표는 항상 x값이 100%일 때는 1이 된다. 즉 데이터를 모두 추출한다면 굳이 모형을 사용할 필요가 없음

 

 

예제) 2000명의 전체고객 중 381 명이 상품을 구매한 경우에 대해 이익도표를 만드는 과정.

 

1.데이터셋의 각 관측치에 대한 예측확률을 내림차순으로 정렬한다.

Rank Predicted probability Actual class
1 0.95 YES
2 0.93 YES
3 0.93 NO
4 0.88 YES
... ... ...

 

2.이후 데이터를 10개의 구간으로 나눈 다음 각 구간의 반응률을 산출한다.

Decile Frequency of "buy"
실제구매 인원
(%) Captured Response
반응검츌율
(%) Response
반응율
1 174 174/381 = 45.6 174/200 = 87
2 110 110/381 =28.8 110/200 = 55
3 38 38/381 = 9.9 38/200 = 19
4 14 14/381 = 3.6 14/200 = 3.6
5 11 11/381 = 2.8 11/200 = 5.5
6 10 7/381 = 1.8 10/200 = 5
7 7 10/381 = 2.6 7/200 = 3.5
8 10 3/381 = 0.7 10/200 =5
9 3 4/381 = 1.0 3/200 = 1.5
10 4   4/200 = 2

 

3.기본향상도(baseline lift)에 비해 반응률이 몇 배나 높은지를 계산하는데 이것을 향상도(Lift)라고 한다.

Decile Frequency of "buy"
실제구매 인원
(%) Captured Response
반응검츌율
(%) Response
반응율
Lift
향상도
1 174 174/381 = 45.6 174/200 = 87 87/19=4.57
2 110 110/381 =28.8 110/200 = 55 55/19=2.89
3 38 38/381 = 9.9 38/200 = 19 19/19 =1
4 14 14/381 = 3.6 14/200 = 3.6 7/19 = 0.36
5 11 11/381 = 2.8 11/200 = 5.5 5.5/19 = 0.28
6 10 7/381 = 1.8 10/200 = 5 5/19 = 0.26
7 7 10/381 = 2.6 7/200 = 3.5 3.5/19 = 0.18
8 10 3/381 = 0.7 10/200 =5 5/19 = 0.26
9 3 4/381 = 1.0 3/200 = 1.5 1.5/19 = 0.07
10 4   4/200 = 2 2/19=0.1

 

-전체 2000명 중 381 명이 구매

*Frequency of "buy" : 2000명 중 실제로 구매한 사람

*%Captured Response : 반응검출률 = 해당 등급의 실제 구매자 / 전체 구매자

*%Response : 반응률 = 해당당급의 실제 구매자/ 해당 등급의 인원(200)

*Lift: 향상도 = 반응률/ 기본향상도

(기본향상도 Baseline Lift = 381/2000 = 19.05(%) ) 

 

#좋은 모델이라면 Lift가 빠른 속도로 감소해야 한다. 

-> 즉 상위 등급에서 최대한 많이 참값을 걸러내는 모형이 좋은 모형!

반응형