이익도표의 개념
-이익도표는 분류모형의 성능을 평가하기 위한 척도로, 분류된 관측치에 대해 얼마나 예측이 잘 이루어졌는지 나타내기 위해 임의로 나눈 각 등급별로 반응검츌율, 반응률, 리프트 등의 정보를 산출하여 나타내는 도표이다.
-관심대상(응답고객, 이탈고객 등)을 랜덤하게 확인할 수 있는 것과 비교하여, 모형을 사용했을 대 얼마나 이익을 볼 수 있는지를 비율로 확인
-리프트 도표는 항상 x값이 100%일 때는 1이 된다. 즉 데이터를 모두 추출한다면 굳이 모형을 사용할 필요가 없음
예제) 2000명의 전체고객 중 381 명이 상품을 구매한 경우에 대해 이익도표를 만드는 과정.
1.데이터셋의 각 관측치에 대한 예측확률을 내림차순으로 정렬한다.
Rank | Predicted probability | Actual class |
1 | 0.95 | YES |
2 | 0.93 | YES |
3 | 0.93 | NO |
4 | 0.88 | YES |
... | ... | ... |
2.이후 데이터를 10개의 구간으로 나눈 다음 각 구간의 반응률을 산출한다.
Decile | Frequency of "buy" 실제구매 인원 |
(%) Captured Response 반응검츌율 |
(%) Response 반응율 |
1 | 174 | 174/381 = 45.6 | 174/200 = 87 |
2 | 110 | 110/381 =28.8 | 110/200 = 55 |
3 | 38 | 38/381 = 9.9 | 38/200 = 19 |
4 | 14 | 14/381 = 3.6 | 14/200 = 3.6 |
5 | 11 | 11/381 = 2.8 | 11/200 = 5.5 |
6 | 10 | 7/381 = 1.8 | 10/200 = 5 |
7 | 7 | 10/381 = 2.6 | 7/200 = 3.5 |
8 | 10 | 3/381 = 0.7 | 10/200 =5 |
9 | 3 | 4/381 = 1.0 | 3/200 = 1.5 |
10 | 4 | 4/200 = 2 |
3.기본향상도(baseline lift)에 비해 반응률이 몇 배나 높은지를 계산하는데 이것을 향상도(Lift)라고 한다.
Decile | Frequency of "buy" 실제구매 인원 |
(%) Captured Response 반응검츌율 |
(%) Response 반응율 |
Lift 향상도 |
1 | 174 | 174/381 = 45.6 | 174/200 = 87 | 87/19=4.57 |
2 | 110 | 110/381 =28.8 | 110/200 = 55 | 55/19=2.89 |
3 | 38 | 38/381 = 9.9 | 38/200 = 19 | 19/19 =1 |
4 | 14 | 14/381 = 3.6 | 14/200 = 3.6 | 7/19 = 0.36 |
5 | 11 | 11/381 = 2.8 | 11/200 = 5.5 | 5.5/19 = 0.28 |
6 | 10 | 7/381 = 1.8 | 10/200 = 5 | 5/19 = 0.26 |
7 | 7 | 10/381 = 2.6 | 7/200 = 3.5 | 3.5/19 = 0.18 |
8 | 10 | 3/381 = 0.7 | 10/200 =5 | 5/19 = 0.26 |
9 | 3 | 4/381 = 1.0 | 3/200 = 1.5 | 1.5/19 = 0.07 |
10 | 4 | 4/200 = 2 | 2/19=0.1 |
-전체 2000명 중 381 명이 구매
*Frequency of "buy" : 2000명 중 실제로 구매한 사람
*%Captured Response : 반응검출률 = 해당 등급의 실제 구매자 / 전체 구매자
*%Response : 반응률 = 해당당급의 실제 구매자/ 해당 등급의 인원(200)
*Lift: 향상도 = 반응률/ 기본향상도
(기본향상도 Baseline Lift = 381/2000 = 19.05(%) )
#좋은 모델이라면 Lift가 빠른 속도로 감소해야 한다.
-> 즉 상위 등급에서 최대한 많이 참값을 걸러내는 모형이 좋은 모형!
'R프로그래밍,통계학' 카테고리의 다른 글
연관분석 - 개념과 R코드로 가시화 하기 (0) | 2020.10.01 |
---|---|
분류모형2-1 분류모형의 평가- ROC커브 (0) | 2020.09.21 |
분류모형 1.평가척도 (0) | 2020.09.20 |
텍스트 처리 함수 1-1)기본함수 기초(in R) (0) | 2020.09.14 |
비정형 데이터분석_정규표현식(in R) (0) | 2020.09.13 |