반응형
#########################################################################################
install.packages("data.table")
library(data.table)
profile <- fread("[PPDB] data.csv")
class(profile) #data.table data.frame
View(head(profile))
attach(profile)
mprofile <-profile[profile$X0001==1]
View(head(profile[profile$X0001==1])) # 남자만 추림.
nrow(mprofile) #42541
#View(mprofile[,c(1,149:160,224:239)])
mskin <- mprofile[,c(149:160)] # 남자피부관리
nrow(mskin) #42451
View(mskin)
mfashion <- mprofile[,c(224:269)] # 남자패션
mfashion2 <- mprofile[,c(224:231,240:263)]
nrow(mfashion) #42541
#View(mfashion)
#apply(mskin,1,mean) # na 값이 많이나옴. 애초에 na = 0으로 놓고 다시 돌려보자.
sum(is.na(mskin)) # na 값이 없음.
mskin[is.na(mskin)] <- 0
mskin_mean <- apply(mskin,1,mean)
View(mskin_mean)
length(mskin_mean) #42541
sum(is.na(mfashion)) ## na값이 엄청 많음. 648396
mfashion[is.na(mfashion)] <- 0
mfashion_mean <- apply(mfashion,1,mean)
length(mfashion_mean) #42541
sum(is.na(mfashion2)) #na값그래도 많이 줄었음 . 54082
mfashion2[is.na(mfashion2)] <- 0
mfashion2_mean <- apply(mfashion2,1,mean)
length(mfashion2_mean)
#apply(data,1,mean) : 데이타의 "행"을 기준으로 평균을 내라.
#View(mfashion_mean)
cor(mskin_mean, mfashion_mean) # 상관관계 0.566
cor(mskin_mean, mfashion2_mean) #0.566
#찾아볼것
엑셀 필터 방법 : 남자 데이터만 볼 수 있게.
#R
원차트 에쁘게 그려보기.
지금 불러온 데이터 D25~ D70, 2
#
mfashion <- mprofile[,c(224:269)]
mfashion2 <- mprofile[,c(224:231,240:263)]
#D33~ D40 까지 NA, 224:231, 239:264
D65~D70 까지 NA
라서 각각 빼고 , 나머지 na나온거 0 넣고 ..평균넣어서 했는데
상관관계는 둘다 0.566 으로 같게 나옴
mfashion 값이 mfashion2 값보다 일관되게 작은데,
일관되게 값이 작은 경우 ,, 상관관계변화에 영향을 미치지 않는것을 알 수 있음.
# 어쨌든 결론.
0.566으로 생각보다는 높지않지만,
피부관리를 하는 남자는 패션에도 관심이 어느정도 있다는 경향을 볼 수 있음.
-------------
반응형
'R프로그래밍,통계학' 카테고리의 다른 글
R(studio)버전확인 (0) | 2020.07.25 |
---|---|
남자 나이대별 폰 사용 비율 (0) | 2020.07.23 |
0324. (0) | 2020.07.23 |
빅데이터 공모전 복습 0316, 0321 (0) | 2020.07.23 |
시대고시 빅데이터분석기사(필기) 책 리뷰 (4) | 2020.06.04 |