반응형
<정규 표현식>
일정한 패턴을 갖는 문자열을 반복적으로 찾을 때는 정규표현식을 사용하는 것이 좋다.
정규표현식은 낯선 기호로 되어 있어서 처음에는 다루기가 익숙하지 않지만, 일종의 프로그래밍 기능을 갖고 있으므로 생산성이 매우 높아진다.
보통 gregexpr() 와 regmatches()를 엮어서 사용하게 된다.
#숫자와 문자
[:digit:] | 숫자로 표현된 텍스트 |
[:lower:] | 소문자 알파벳으로 표시된 텍스트 |
[:upper:] | 대문자 알파벳으로 표시된 텍스트 |
[:alpha:] | 문자로 표시된 텍스트 |
[:alnum:] | 숫자와 문자로 표시된 텍스트 |
#기호류
[:punct:] | 구두점으로 표시된 텍스트(쉼표나 마침표 등) |
[:graph:] | 가시적으로 표현된 텍스트 [:alnum:] + [:punct:] |
[:blank:] | 스페이스나 탭을 이용하여 공란으로 표현된 텍스트 |
[:space:] | 스페이스, 탭, 줄바꿈 등을 이용해 공란으로 표현된 텍스트 |
[:print:] | 출력했을 때 확인할 수있는 텍스트 [:alnum:] + [:punct:] + [:space:] |
[:cntrl:] | \n \r \t 와 같은 제어문자 |
#양화기호
? | 선행표현을 고려할 수도, 고려하지 않을 수도 있으며 최대 1회 매칭됨 |
* | 선행표현이 0회 혹은 그 이상 매칭됨 |
+ | 선행표현이 1회 혹은 그 이상 매칭됨 |
{n} | 선행표현이 정확하게 n회 매칭됨 |
{n,} | 선행표현이 n회 이상 매칭됨 |
{n,m} | 선행표현이 n회 이상, m회 미만으로 매칭됨 |
반응형
'R프로그래밍,통계학' 카테고리의 다른 글
분류모형 1.평가척도 (0) | 2020.09.20 |
---|---|
텍스트 처리 함수 1-1)기본함수 기초(in R) (0) | 2020.09.14 |
Melt() 와 Cast()함수 (0) | 2020.09.02 |
Rmarkdown으로 쉽게 코딩하기 (0) | 2020.08.14 |
트위터 크롤링을 통한 비정형 데이터 분석(트위터 API 받는 법) (0) | 2020.08.12 |