본문 바로가기

R프로그래밍,통계학

(27)
연관분석 - 개념과 R코드로 가시화 하기 연관규칙분석 -연관성분석은 흔히 장바구니분석(Market Basket Analysis) 또는 서열분석(Sequence Analysis)이라고 불린다. (장바구니분석 : '장바구니에 무엇이 같이 들어 있는지에 대한 분석' 서열분석 : 'A를 산 다음에 B를 산다') -기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 적용한다. 연관규칙의 형태 -조건과 반응의 형태(if then)로 이루어져 있다. ( Item set A) -> (Item set B) If A then B : 만일 A가 일어나면 B가 일어난다. 아메리카노를 마시는 손님 중 10%가 브라우니를 먹는다. 샌드위치를 먹는 고객의 30%가 탄산수를 함꼐 마신다. 연관규칙의 측도 -산업의 특성에 따라..
분류모형2-2 분류모형의 평가- 리프트도표/Gain chart 이익도표의 개념 -이익도표는 분류모형의 성능을 평가하기 위한 척도로, 분류된 관측치에 대해 얼마나 예측이 잘 이루어졌는지 나타내기 위해 임의로 나눈 각 등급별로 반응검츌율, 반응률, 리프트 등의 정보를 산출하여 나타내는 도표이다. -관심대상(응답고객, 이탈고객 등)을 랜덤하게 확인할 수 있는 것과 비교하여, 모형을 사용했을 대 얼마나 이익을 볼 수 있는지를 비율로 확인 -리프트 도표는 항상 x값이 100%일 때는 1이 된다. 즉 데이터를 모두 추출한다면 굳이 모형을 사용할 필요가 없음 예제) 2000명의 전체고객 중 381 명이 상품을 구매한 경우에 대해 이익도표를 만드는 과정. 1.데이터셋의 각 관측치에 대한 예측확률을 내림차순으로 정렬한다. Rank Predicted probability Actual..
분류모형2-1 분류모형의 평가- ROC커브 2020/09/20 - [분류 전체보기] - 분류모형 1.평가척도 #ROC커브 (Receiver Operating Characteristic Curve) -가로축을 1-특이도 (False Positive Rate) : 0인 케이스에 대해서 1로 잘못 예측한 비율 세로축을 민감도(True Positive Rate) : 1인 케이스에 대한 1로 잘 예측한 비율 로 두어, 시각화한 그래프이다. -2진 분류(binary classfication)에서 모형의 선능을 평가하기 위해 많이 사용된다. -그래프가 왼쪽 상단에 그려질수록 올바르게 예측한 비율은 높고, 잘못 예측한 비율은 낮음을 의미한다. -ROC곡선 아래의 면적을 의미하는 AUROC(Area Under ROC)값이 크면 클수록(1에 가까울수록) 모형의 성..
분류모형 1.평가척도 1. 정분류율(Accurcy) -전체중에서 맞게 예측한것의 비율 2. 오분류율(Error Rate) -전체중에서 잘못예측한 것의 비율 3. 특이도(Specificity) -실제 Negative 중에서 Negative로 잘 예측한 비율. 4. 민감도(Sensitivity) -실제 Positive 중에서 Positive로 잘 예측한 비율. 5. 정확도(Precision) -예측된 Positive 중에서 Positive로 잘 예측한 비율. (Positive로 예측된 것 중에서 실제 Positive인 비율) 6. 재현율(Recall) : 민감도와 같다. 7. F1 score #뒤에 붙는 P, N은 예측 기준이다. 앞에 붙는 T,F 는 잘 예측했느냐(맞췄냐 틀렸냐)를 나타낸다. TP : P로 잘 예측한것 -> 참..
텍스트 처리 함수 1-1)기본함수 기초(in R) #기본 tolower() 영어문자를 소문자로 toupper() 영어문자를 대문자로 nchar() 문자의 수를 세어줌 length() 원소의 수를 세어줌 substr() 문자열을 추출하는 기능 #substract +string strplit() 하나의 문장을 일정한 기준에 따라 분리해준다. #string + split #리스트 형태로 출력 #마침표(.), 쉼표(,), 괄호 등으로 분리할 때는 2개의 백슬래쉬(\\)와 함꼐 사용한다. paste() 문자열들을 붙여주는 기능을 갖는다. #sep 옵션으로 구분자 지정 #collapse 옵션을 사용하면 벡터 원소들을 하나로 합칠 수 있다. tolower("KOREA") toupper("korea") nchar("Korea") length("Korea") nchar..
비정형 데이터분석_정규표현식(in R) 일정한 패턴을 갖는 문자열을 반복적으로 찾을 때는 정규표현식을 사용하는 것이 좋다. 정규표현식은 낯선 기호로 되어 있어서 처음에는 다루기가 익숙하지 않지만, 일종의 프로그래밍 기능을 갖고 있으므로 생산성이 매우 높아진다. 보통 gregexpr() 와 regmatches()를 엮어서 사용하게 된다. #숫자와 문자 [:digit:] 숫자로 표현된 텍스트 [:lower:] 소문자 알파벳으로 표시된 텍스트 [:upper:] 대문자 알파벳으로 표시된 텍스트 [:alpha:] 문자로 표시된 텍스트 [:alnum:] 숫자와 문자로 표시된 텍스트 #기호류 [:punct:] 구두점으로 표시된 텍스트(쉼표나 마침표 등) [:graph:] 가시적으로 표현된 텍스트 [:alnum:] + [:punct:] [:blank:] 스..
클리블랜드 점 그리기(X축에 여러개의 명목형 변수가 쓰였을 때) #R까기2의 예제 15를 참조하였습니다. X축에 여러개의 명목형 변수가 쓰였을 때 사용하기 좋은 '클리블랜드 점 그리기' 입니다. 1. 데이터를 불러옵니다. library("dplyr") library("ggplot2") library("ggthemes") DF
Melt() 와 Cast()함수 #Air quality example names(airquality)