본문 바로가기

R프로그래밍,통계학

텍스트 처리 함수 1-1)기본함수 기초(in R)

반응형

#기본

tolower() 영어문자를 소문자로
toupper() 영어문자를 대문자로 
nchar() 문자의 수를 세어줌 
length() 원소의 수를 세어줌
substr() 문자열을 추출하는 기능
#substract +string
strplit() 하나의 문장을 일정한 기준에 따라 분리해준다.
#string + split
#리스트 형태로 출력
#마침표(.), 쉼표(,), 괄호 등으로 분리할 때는 2개의 백슬래쉬(\\)와 함꼐 사용한다.
paste() 문자열들을 붙여주는 기능을 갖는다.
#sep 옵션으로 구분자 지정
#collapse 옵션을 사용하면 벡터 원소들을 하나로 합칠 수 있다.

 


<tolower, toupper, nchar, length>

tolower("KOREA") 
toupper("korea")
nchar("Korea")
length("Korea")
nchar('한국')
length('한국')
nchar(c('Korea','한국'))
length(c('Korea','한국'))


<substr>

substr("BigDataAnalysis", start= 4, stop= 7)
substr("BigDataAnalysis",4,7)  #위와 같은 결과
country <- c("Korea", "Japan", "China", "Singapore", "Russia")
substr(country,1,3) #각 벡터 원소에 적용.


<strplit>

-하나의 문장을 일정한 기준에 따라 분리해준다.

myword<- "This is the big data analysis"
x <- strsplit(myword,split=" ")
x
class(x) 

   # list형태로 반환해주므로 여러문장을 분리할 경우, 문장별로 리스트 원소에 저장된다.

myword1 <- "This is the big data analysis 1" 
myword2 <- "This is the big data analysis 2" 
myword3 <- "This is the big data analysis 3" 
myword <- c(myword1, myword2, myword3) 

for(i in myword) 
  result <- strsplit(myword, split=" ") 
result 

   # 마침표(.), 쉼표(,), 괄호 등으로 분리할 때는 2개의 백슬래쉬(\\)와 함꼐 사용한다.

myword <- "우리의 소원은 로또입니다.꿈에도 소원은 로또입니다." 
strsplit(myword, split ="\\.")


<paste>

-문자열들을 붙여주는 기능을 갖는다.

number <- 1:10
alphabet <- c("a", "b","c")
paste(number, alphabet) # 두 벡터의 같은 자리 원소에 적용
paste(number, alphabet, sep="")
paste(number, alphabet, sep= "-")

 

   # collapse 옵션을 사용하면 벡터 원소들을 하나로 합칠 수 있다.

   따라서 리스트로 된 위의 결과도 다시 합칠 수있다.

paste(number, collapse= "")
paste(alphabet, collapse= "")

for(i in 1:length(result))
   print(paste(result[[i]],collapse=" "))  #공란을 줌.

 

반응형