본문 바로가기

R프로그래밍,통계학

빅데이터 공모전 복습 0316, 0321

반응형
#2019 0316

install.packages("data.table")
library(data.table)
setwd("C:/DATA/embrain.re.2020/embrain.data")

profile <- fread("[PPDB] data.csv")
head(profile)
attach(profile)

profile$id
id
length(id) # 총 key id의 개수 # 115854

#payment total 불러오기
install.packages("bit64")
library(bit64) # R에서 깔라고 오류떠서 깔음.

pay_tot <- fread("[PAYMENT] Summary_Total.csv")
head(pay_tot)
attach(pay_tot)
PANEL_ID
PANEL_ID <-sort(PANEL_ID) # PANEL_ID를 알파벳순서대로 정렬.

length(pay_tot$PANEL_ID) # 총 패널 아이디의 개수 # 103176

##A 자료에만 있는것들을 B자료에 있는것들로 고르기!! 디플라이어 ??
id==PANEL_ID
head(id)
head(PANEL_ID)

pay_cate <- fread("[PAYMENT] Summary_Category.csv")
View(head(pay_cate))
attach(pay_cate)
length(PANEL_ID) # 총 패널 아이디의 개수 카테고리별 # 103175 -> 아닌듯
length(pay_cate$PANEL_ID) #1050725 -> 이게 맞는듯.

pay_brand <- fread("")
FG

 

데이터

 

 

#패널의 'profile'데이터는 115854개로 이뤄져있다.

중복은 없는듯하다. (?)

 

#payment_total 데이터는

각 고객별로 총 얼마씩 썼는지만 나타내주는 데이터인거같다.

103176 개로 이뤄져있다.

마찬가지로 중복은 없는듯하다.(?)

 

#payment_category 데이터는 

각 카테고리별로 고객이 얼마나 썼는지 나타내주는 데이터인거같다.

1050725 개로 이뤄져있다.

중복이 있는거같다.

※다음에 확인해보자.

 

 

 

 

0321 추가본

 

refine_apptime <-fread("[APP] Refine_AppTime.csv")     
nrow(refine_apptime)  # 395704  
View(head(refine_apptime))


#reshape 패키지로 panel_id 를 id로 이름을 바꿔줍니다. 
install.packages("reshape")
library(reshape)     
refine_apptime <- rename(refine_apptime,c(panel_id ="id")) 
# 첫번째 아이디열을 id로 통일 -profile 데이터기준.

#duplicated 함수로 중복된 데이터가 얼마나 있는지 검사 합니다.
nrow(profile[duplicated(profile$id)])      # 0
nrow(pay_tot[duplicated(pay_tot$PANEL_ID)]) # 70093
nrow(refine_apptime[duplicated(refine_apptime$id)]) # 350767

#merge 함수로 id를 기준으로 profile, refine_apptime 데이터를 합쳐봅니다.
a<-merge(profile,refine_apptime, by="id" )

nrow(a) # 214251.... 
View(head(a)) #같은 id가 엄청 중복되어서 나오는데 아마도 주차별로 나와서 그런듯하다.

 

 

반응형

'R프로그래밍,통계학' 카테고리의 다른 글

R(studio)버전확인  (0) 2020.07.25
남자 나이대별 폰 사용 비율  (0) 2020.07.23
0324.  (0) 2020.07.23
빅데이터 공모전 복습 0317  (0) 2020.07.23
시대고시 빅데이터분석기사(필기) 책 리뷰  (4) 2020.06.04