반응형
#2019 0316
install.packages("data.table")
library(data.table)
setwd("C:/DATA/embrain.re.2020/embrain.data")
profile <- fread("[PPDB] data.csv")
head(profile)
attach(profile)
profile$id
id
length(id) # 총 key id의 개수 # 115854
#payment total 불러오기
install.packages("bit64")
library(bit64) # R에서 깔라고 오류떠서 깔음.
pay_tot <- fread("[PAYMENT] Summary_Total.csv")
head(pay_tot)
attach(pay_tot)
PANEL_ID
PANEL_ID <-sort(PANEL_ID) # PANEL_ID를 알파벳순서대로 정렬.
length(pay_tot$PANEL_ID) # 총 패널 아이디의 개수 # 103176
##A 자료에만 있는것들을 B자료에 있는것들로 고르기!! 디플라이어 ??
id==PANEL_ID
head(id)
head(PANEL_ID)
pay_cate <- fread("[PAYMENT] Summary_Category.csv")
View(head(pay_cate))
attach(pay_cate)
length(PANEL_ID) # 총 패널 아이디의 개수 카테고리별 # 103175 -> 아닌듯
length(pay_cate$PANEL_ID) #1050725 -> 이게 맞는듯.
pay_brand <- fread("")
FG
#패널의 'profile'데이터는 115854개로 이뤄져있다.
중복은 없는듯하다. (?)
#payment_total 데이터는
각 고객별로 총 얼마씩 썼는지만 나타내주는 데이터인거같다.
103176 개로 이뤄져있다.
마찬가지로 중복은 없는듯하다.(?)
#payment_category 데이터는
각 카테고리별로 고객이 얼마나 썼는지 나타내주는 데이터인거같다.
1050725 개로 이뤄져있다.
중복이 있는거같다.
※다음에 확인해보자.
0321 추가본
refine_apptime <-fread("[APP] Refine_AppTime.csv")
nrow(refine_apptime) # 395704
View(head(refine_apptime))
#reshape 패키지로 panel_id 를 id로 이름을 바꿔줍니다.
install.packages("reshape")
library(reshape)
refine_apptime <- rename(refine_apptime,c(panel_id ="id"))
# 첫번째 아이디열을 id로 통일 -profile 데이터기준.
#duplicated 함수로 중복된 데이터가 얼마나 있는지 검사 합니다.
nrow(profile[duplicated(profile$id)]) # 0
nrow(pay_tot[duplicated(pay_tot$PANEL_ID)]) # 70093
nrow(refine_apptime[duplicated(refine_apptime$id)]) # 350767
#merge 함수로 id를 기준으로 profile, refine_apptime 데이터를 합쳐봅니다.
a<-merge(profile,refine_apptime, by="id" )
nrow(a) # 214251....
View(head(a)) #같은 id가 엄청 중복되어서 나오는데 아마도 주차별로 나와서 그런듯하다.
반응형
'R프로그래밍,통계학' 카테고리의 다른 글
R(studio)버전확인 (0) | 2020.07.25 |
---|---|
남자 나이대별 폰 사용 비율 (0) | 2020.07.23 |
0324. (0) | 2020.07.23 |
빅데이터 공모전 복습 0317 (0) | 2020.07.23 |
시대고시 빅데이터분석기사(필기) 책 리뷰 (4) | 2020.06.04 |