빅데이터 공모전 복습 0317

#########################################################################################
install.packages("data.table")
library(data.table)
profile <- fread("[PPDB] data.csv")
class(profile) #data.table data.frame
View(head(profile))
attach(profile)

mprofile <-profile[profile$X0001==1]
View(head(profile[profile$X0001==1])) # 남자만 추림.
nrow(mprofile) #42541
#View(mprofile[,c(1,149:160,224:239)])

mskin <- mprofile[,c(149:160)]  # 남자피부관리
nrow(mskin) #42451
View(mskin)

mfashion <- mprofile[,c(224:269)] # 남자패션
mfashion2 <- mprofile[,c(224:231,240:263)]
nrow(mfashion) #42541
#View(mfashion)

#apply(mskin,1,mean) # na 값이 많이나옴. 애초에 na = 0으로 놓고 다시 돌려보자.
sum(is.na(mskin)) # na 값이 없음.
mskin[is.na(mskin)] <- 0 
mskin_mean <- apply(mskin,1,mean)
 View(mskin_mean)
length(mskin_mean) #42541

sum(is.na(mfashion))  ## na값이 엄청 많음. 648396
mfashion[is.na(mfashion)] <- 0
mfashion_mean <- apply(mfashion,1,mean)
length(mfashion_mean) #42541

sum(is.na(mfashion2)) #na값그래도 많이 줄었음 . 54082
mfashion2[is.na(mfashion2)] <- 0
mfashion2_mean <- apply(mfashion2,1,mean)
length(mfashion2_mean)

#apply(data,1,mean) : 데이타의 "행"을 기준으로 평균을 내라.

#View(mfashion_mean)

cor(mskin_mean, mfashion_mean) # 상관관계 0.566
cor(mskin_mean, mfashion2_mean) #0.566

#찾아볼것

엑셀 필터 방법 : 남자 데이터만 볼 수 있게.

원차트 에쁘게 그려보기.

지금 불러온 데이터 D25~ D70, 2

mfashion <- mprofile[,c(224:269)]

mfashion2 <- mprofile[,c(224:231,240:263)]

#D33~ D40 까지 NA, 224:231, 239:264

D65~D70 까지 NA

라서 각각 빼고 , 나머지 na나온거 0 넣고 ..평균넣어서 했는데

상관관계는 둘다 0.566 으로 같게 나옴

mfashion 값이 mfashion2 값보다 일관되게 작은데,

일관되게 값이 작은 경우 ,, 상관관계변화에 영향을 미치지 않는것을 알 수 있음.

# 어쨌든 결론.

0.566으로 생각보다는 높지않지만,

피부관리를 하는 남자는 패션에도 관심이 어느정도 있다는 경향을 볼 수 있음.

-------------

'R프로그래밍,통계학' 카테고리의 다른 글

R(studio)버전확인 (0)	2020.07.25
남자 나이대별 폰 사용 비율 (0)	2020.07.23
0324. (0)	2020.07.23
빅데이터 공모전 복습 0316, 0321 (0)	2020.07.23
시대고시 빅데이터분석기사(필기) 책 리뷰 (4)	2020.06.04

차근차근

빅데이터 공모전 복습 0317

'R프로그래밍,통계학' 카테고리의 다른 글

티스토리툴바

빅데이터 공모전 복습 0317

'R프로그래밍,통계학' 카테고리의 다른 글

'R프로그래밍,통계학' Related Articles

티스토리툴바