R프로그래밍,통계학
비정형 데이터분석_정규표현식(in R)
slow_steady
2020. 9. 13. 15:56
반응형
<정규 표현식>
일정한 패턴을 갖는 문자열을 반복적으로 찾을 때는 정규표현식을 사용하는 것이 좋다.
정규표현식은 낯선 기호로 되어 있어서 처음에는 다루기가 익숙하지 않지만, 일종의 프로그래밍 기능을 갖고 있으므로 생산성이 매우 높아진다.
보통 gregexpr() 와 regmatches()를 엮어서 사용하게 된다.
#숫자와 문자
[:digit:] | 숫자로 표현된 텍스트 |
[:lower:] | 소문자 알파벳으로 표시된 텍스트 |
[:upper:] | 대문자 알파벳으로 표시된 텍스트 |
[:alpha:] | 문자로 표시된 텍스트 |
[:alnum:] | 숫자와 문자로 표시된 텍스트 |
#기호류
[:punct:] | 구두점으로 표시된 텍스트(쉼표나 마침표 등) |
[:graph:] | 가시적으로 표현된 텍스트 [:alnum:] + [:punct:] |
[:blank:] | 스페이스나 탭을 이용하여 공란으로 표현된 텍스트 |
[:space:] | 스페이스, 탭, 줄바꿈 등을 이용해 공란으로 표현된 텍스트 |
[:print:] | 출력했을 때 확인할 수있는 텍스트 [:alnum:] + [:punct:] + [:space:] |
[:cntrl:] | \n \r \t 와 같은 제어문자 |
#양화기호
? | 선행표현을 고려할 수도, 고려하지 않을 수도 있으며 최대 1회 매칭됨 |
* | 선행표현이 0회 혹은 그 이상 매칭됨 |
+ | 선행표현이 1회 혹은 그 이상 매칭됨 |
{n} | 선행표현이 정확하게 n회 매칭됨 |
{n,} | 선행표현이 n회 이상 매칭됨 |
{n,m} | 선행표현이 n회 이상, m회 미만으로 매칭됨 |
반응형