본문 바로가기

R프로그래밍,통계학

(27)
Rmarkdown으로 쉽게 코딩하기 R은 대화하듯 서로 주고받는 방식의 '인터프리터 언어' 입니다. 단점은 지난 대화를 잊어 버린다는 것입니다. 아까 얻은 값이 필요한데 코딩 문법이 기억나지 않거나 여러 절차를 다시 한 줄씩 입력하는 것이 너무 비효율적일 수 있습니다. 그래서 R은 다른 프로그래밍 언어처럼 여러줄을 입력해놓고 한 번에 실행하거나 그 여러줄을 한 줄 씩 선택해 명령할 수 있습니다. Rmarkdown의 장점 1. pdf, word, html 형식의 문서를 손쉽게 만들 수 있습니다. 코딩 내용을 문서에 그대로 담을 수도 있고 결과 그리고 그래프까지 알아서 문서에 삽입됩니다. 2.코드 실행방식이 편하고 다양합니다. 한줄 씩 입력하는것은 script와 같으나 markdown은 몇 줄을 하나의 그룹으로 묶어 그룹별로 실행할 수있습니다..
트위터 크롤링을 통한 비정형 데이터 분석(트위터 API 받는 법) 너무 잘 설명해놓은 블로그가 있어서 공유합니다. http://hleecaster.com/twitter-api-developer/ 트위터 API 사용을 위한 준비 (개발자 신청 및 Consumer Key, Access Token 발급) - 아무튼 워라밸 트위터 API를 사용하기 위해서는 개발자 신청, 등록을 하고 Consumer Key, Access Token을 받아야 한다. 최근에 절차가 좀 까다로워졌던데 이 기회에 다시 신청하면서 절차를 정리해봤다. hleecaster.com https://apps.twitter.com 에 들어가서 위 블로그 하나하나 따라해 보시는걸 추천드립니다. 과정중에 5개의 질문을 선택적으로 답해야하는데 저는 첫번째 질문과 2번째 질문에 답했습니다. 1. I am ~~. I gr..
(명목변수별 다른명목변수 levels별 비율 표현)_reshape2 패키지의 melt()를 이용해 데이터를 가공 후 그래프로 나타내기 #R까기 예제 14를 참고하였습니다. #명목형변수(지역)별로 다른명목변수(성별)의 비율을 막대그래프로 나타낼 때에 참고하면 좋은 예제입니다. library("dplyr") library("ggplot2") library("ggthemes") install.packages("reshape2") library("reshape2") DF
R에서 그린 이미지,그래프 내보내는방법(png) png("C:\\DATA\\data\\Plot01.png",width = 2000, height = 1500) plot(mygraph) dev.off() png("저장할위치\\저장할파일이름.png", width=너비, height = 높이) plot(내보낼 그래프) dev.off()
(명목형변수별로 수치를 나타낼때)_dplyr 패키지를 이용해 필요한 데이터를 만들고 그래프로 나타내기 #R까기2의 예제 13를 참고하였습니다. 명목형 변수(도수) 별로 수치(남녀비율)를 나타낼 때 참고 할 수 있는 예제입니다. Barplot을 이용하였습니다. 데이터를 불러오고 필요없는 열을 삭제해 줍니다. install.packages("dplyr") library("dplyr") library("ggplot2") library("ggthemes") DF
ggplot2로 하는 정교한 시각화-막대그래프(geom_bar) 막대그래프는 범주별 빈도수를 나타낼 때 주로 쓰입니다. 저번에는 산점도로 해보았는데 이번에는 막대그래프로 데이터를 시각화 해보겠습니다. 1. 범주별 빈도수 나타내기 DF
ggplot2로 하는 정교한 시각화-산점도 png("C:/DATA/residualPlot01.png",width = 2000, height = 1500) ggplot(data=diamonds, aes(x=carat, y=price, colour=clarity)) + geom_point() +theme_wsj() dev.off()​ g1+geom_point() +geom_line(size=1) +facet_grid(sex~.) install.packages("ggplot2") install.packages("ggthemes") library("ggplot2") library("ggthemes") ggplot(data=diamonds, aes(x=carat, y=price, colour=clarity)) + geom_point() +theme_wsj..
시각화,탐색적자료분석에 사용하는 4가지 메인 그래프와 특성 요약 시각화는 단순히 아름답게 보이는 목적을 넘어서 데이터의 특징을 찾아내는데 아주 효과적입니다. 시각화는 크게 나누어 1)막대그래프, 2) Boxplot ,3)히스토그램, 4)산포도 로 나눠질 수 있습니다. 1.막대그래프 -명목형변수에 대한 도수를 그래프로 나타내기에 좋음. (또는 이산형, 순서형) 2.히스토그램 -X축은 반드시 수치형 연속형 변수여야만 함 -도수를 그래프로 나타낸다는 점은 막대 그래프와 같습니다. 3.상자그래프(Box Plot) -수치형 연속 변수만 나타낼 수 있는 그래프. -아웃라이어, 분산정도, 중앙값 파악가능 -> 탐색적자료분석을 할때 반드시 필요한 그래프 4.산포도 -1~3 은 일변량 그래프. 산포도는 다변량 그래프. -두 개 변수의 관계를 그래프로 나타냄. ggplot 패키지를 이..