본문 바로가기

R프로그래밍,통계학

비정형 데이터분석_정규표현식(in R)

반응형

<정규 표현식>

일정한 패턴을 갖는 문자열을 반복적으로 찾을 때는 정규표현식을 사용하는 것이 좋다.
정규표현식은 낯선 기호로 되어 있어서 처음에는 다루기가 익숙하지 않지만, 일종의 프로그래밍 기능을 갖고 있으므로 생산성이 매우 높아진다.
보통 gregexpr() 와 regmatches()를 엮어서 사용하게 된다. 

 

 

#숫자와 문자

[:digit:] 숫자로 표현된 텍스트
[:lower:] 소문자 알파벳으로 표시된 텍스트
[:upper:] 대문자 알파벳으로 표시된 텍스트
[:alpha:] 문자로 표시된 텍스트
[:alnum:] 숫자와 문자로 표시된 텍스트

#기호류

[:punct:] 구두점으로 표시된 텍스트(쉼표나 마침표 등)
[:graph:] 가시적으로 표현된 텍스트 [:alnum:] + [:punct:]
[:blank:] 스페이스나 탭을 이용하여 공란으로 표현된 텍스트
[:space:] 스페이스, 탭, 줄바꿈 등을 이용해 공란으로 표현된 텍스트
[:print:] 출력했을 때 확인할 수있는 텍스트 [:alnum:] + [:punct:] + [:space:]
[:cntrl:] \n  \r  \t 와 같은 제어문자

 

#양화기호

? 선행표현을 고려할 수도, 고려하지 않을 수도 있으며 최대 1회 매칭됨
* 선행표현이 0회 혹은 그 이상 매칭됨
+ 선행표현이 1회 혹은 그 이상 매칭됨
{n} 선행표현이 정확하게 n회 매칭됨
{n,} 선행표현이 n회 이상 매칭됨
{n,m} 선행표현이 n회 이상, m회 미만으로 매칭됨
반응형