텍스트 처리 함수 1-1)기본함수 기초(in R)

#기본

tolower()	영어문자를 소문자로
toupper()	영어문자를 대문자로
nchar()	문자의 수를 세어줌
length()	원소의 수를 세어줌
substr()	문자열을 추출하는 기능 #substract +string
strplit()	하나의 문장을 일정한 기준에 따라 분리해준다. #string + split #리스트 형태로 출력 #마침표(.), 쉼표(,), 괄호 등으로 분리할 때는 2개의 백슬래쉬(\\)와 함꼐 사용한다.
paste()	문자열들을 붙여주는 기능을 갖는다. #sep 옵션으로 구분자 지정 #collapse 옵션을 사용하면 벡터 원소들을 하나로 합칠 수 있다.

<tolower, toupper, nchar, length>

tolower("KOREA")
toupper("korea")
nchar("Korea")
length("Korea")
nchar('한국')
length('한국')
nchar(c('Korea','한국'))
length(c('Korea','한국'))

<substr>

substr("BigDataAnalysis", start= 4, stop= 7)
substr("BigDataAnalysis",4,7) #위와 같은 결과
country <- c("Korea", "Japan", "China", "Singapore", "Russia")
substr(country,1,3) #각 벡터 원소에 적용.

<strplit>

-하나의 문장을 일정한 기준에 따라 분리해준다.

myword<- "This is the big data analysis"
x <- strsplit(myword,split=" ")
x
class(x)

# list형태로 반환해주므로 여러문장을 분리할 경우, 문장별로 리스트 원소에 저장된다.

myword1 <- "This is the big data analysis 1"
myword2 <- "This is the big data analysis 2"
myword3 <- "This is the big data analysis 3"
myword <- c(myword1, myword2, myword3)

for(i in myword)
result <- strsplit(myword, split=" ")
result

# 마침표(.), 쉼표(,), 괄호 등으로 분리할 때는 2개의 백슬래쉬(\\)와 함꼐 사용한다.

myword <- "우리의 소원은 로또입니다.꿈에도 소원은 로또입니다."
strsplit(myword, split ="\\.")

<paste>

-문자열들을 붙여주는 기능을 갖는다.

number <- 1:10
alphabet <- c("a", "b","c")
paste(number, alphabet) # 두 벡터의 같은 자리 원소에 적용
paste(number, alphabet, sep="")
paste(number, alphabet, sep= "-")

# collapse 옵션을 사용하면 벡터 원소들을 하나로 합칠 수 있다.

따라서 리스트로 된 위의 결과도 다시 합칠 수있다.

paste(number, collapse= "")
paste(alphabet, collapse= "")

for(i in 1:length(result))
print(paste(result[[i]],collapse=" ")) #공란을 줌.

'R프로그래밍,통계학' 카테고리의 다른 글

분류모형2-1 분류모형의 평가- ROC커브 (0)	2020.09.21
분류모형 1.평가척도 (0)	2020.09.20
비정형 데이터분석_정규표현식(in R) (0)	2020.09.13
Melt() 와 Cast()함수 (0)	2020.09.02
Rmarkdown으로 쉽게 코딩하기 (0)	2020.08.14

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

차근차근

텍스트 처리 함수 1-1)기본함수 기초(in R)

'R프로그래밍,통계학' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

텍스트 처리 함수 1-1)기본함수 기초(in R)

'R프로그래밍,통계학' 카테고리의 다른 글

'R프로그래밍,통계학' Related Articles

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역