2019-08-07

17 minutes read (About 2556 words)

chapter17. 정규표현식

17.1 부분 문자열 검색과 대체

정규표현식(정규식)으로 하는 일은 문자열 속에서 부분 문자열을 찾는 일이며
찾은 부분을 교체할 때도 있다.
다만 그 전에, 정규식을 쓰지 않고 검색하고 교체하는 방법인
String.prototype 메서드 검색을 살펴본다,
큰 문자열 안에 원하는 부분 문자열이 존재하는지 여부를 찾을 때 사용

String.prototype

const input = "AS I was going to Saint Ives";
input.startsWith("AS"); //true
input.endsWith("Ives"); //true
input.startsWith("going", 9); //true - index 9에서 시작하느냐
input.endsWith("going", 14); //true - 끝에서 부터 14번째에
input.includes("going"); //true;
input.includes("going", 10); //false - index 10에서 시작하면 going 이 없다.
input.indexOf("going"); // 9 ;
input.indexOf("going", 10); // -1;
input.indexOf("nope"); // -1;

이들 메서드는 모두 대소문자를 구분한다.
따라서 input.startsWith("as")는 false 이다.
대소문자를 구분하지 않고 비교하려면 소문자고 바꿔서 비교하면 된다.

String.prototype

1 2	const input = "AS I was going to Saint Ives"; input.toLowerCase().startsWith("as"); //true

String.prototype.toLowerCase는 원래 문자열은 그대로 두고 새 문자열을 반환한다.
자바스크립트 문자열은 항상 불변이다.
부분 문자열을 찾아 교체하려면 String.prototype.replace 사용

String.prototype.replace

//String.prototype.replace
const input = "AS I was going to Saint Ives";
const output = input.replace("going", "walking");
/*
//원래 문자열은 바뀌지 않는다.
console.log(input);
"AS I was going to Saint Ives"

console.log(output);
"AS I was walking to Saint Ives"
*/

17.2 정규식 만들기

자바스크립트 정규식은 RegExp 클래스이다. RegExp 생성자로도 정규식을 만들 수 있지만, 간편한 리터럴 문법도 있다.
정규식 리터럴은 슬래시(/)로 감싼 형태이다.

정규식 만들기

1 2	const rel1 = /going/; //단어 going을 찾을 수 있는 정규식 const rel2 = new RegExp("going"); //생성자를 사용했지만 결과는 같다.

17.3 정규식 검색

정규식이 만들어지면 다양한 옵션으로 문자열을 검색 할 수 있다.
예) /\w{3,}/ig => 세 글자 이상인 단어에 모두 일치하고, 대소문자를 가리지 않음

정규식 검색

const input = "AS I was going to Saint Ives";
const re = /\w{3,}/gi;

//문자열(input)의 메서드를 사용할 때
input.match(re); //(4) ["was", "going", "Saint", "Ives"]
input.search(re); //5 세글자 이상으로 된 단어의 첫번쨰 인덱스는 5이다.

//정규식(re)의 메서드를 사용할 때
re.exec(input); //["was", index: 5, input: "AS I was going to Saint Ives", groups: undefined]
re.exec(input); //going
re.exec(input); //Saint
re.exec(input); //Ives
re.exec(input); //null - 일치하는 것이 더이상 없다.
re.test(input); //true - input에는 세 글자 이상으로 된 단어가 한 개 이상 있다.

//정규식 리터럴을 사용시
input.match(/\w{3,}/gi);
input.search(/\w{3,}/gi);
/\w{3,}/gi.exec(input);
/\w{3,}/gi.test(input);

17.4 정규식을 사용한 문자열 교체

String.prototype.replace 메서드에도 정규식을 쓸 수 있다.

//네 글자 이상으로 된 단어를 모두 교체
const input = "AS I was going to Saint Ives";
const output = input.replace(/\w{4,}/gi, "****");
/*
"AS I was **** to **** ****"
*/

17.5 입력 소비

정규식이 입력 문자열을 소비하는 패턴이라고 생각하는 것
정규식이 문자열을 소비할 떄 사용하는 알고리즘

문자열 왼쪽에서 오른쪽으로 진행
일단 소비한 글자에 다시 돌아오지 않는다
한 번에 한 글자씩 움직이며 일치하는 것이 있는지 확인한다.
일치하는 것을 찾으면 해당하는 글자를 한꺼번에 소비 후 다음 글자로 진행

17.6 대체

//html 페이지를 문자열에 담고, 이 문자열에서 <a>,<area>,<link>,<script>등등을 찾고 싶을 때, 대소문자 상관없이 찾고싶을 때

const html =
  'HTML With <a href="one">one link</a> and some JavaScript' +
  '<script src="stuff.js">';
const matches = html.match(/area|a|link|script|source/gi); //첫 시도
//(8) ["a", "link", "a", "a", "a", "a", "Script", "script"]

파이프(|)는 대체를 뜻하는 메타 문자이다.
ig는 대소문자를 가리지 않고 전체를 검색하라는 의미이다.
문자열이 겹치는 것이 있을 때는 더 큰것을 먼저 써야한다.

17.7 HTML 찾기

정규식으로는 HTML을 분석할 수 없습니다.
p 태그 안에 a 태그가 존재하는 등의 계층적 구조에 취약합니다.

17.8 문자셋

문자셋은 글자 하나를 다른 것으로 대체하는 방법을 줄인 것

문자셋

const beer99 =
  "99 bottles of beer on the wall" +
  "take 1 down and pass it around-- " +
  "98 bottles of bear on the wall";
const matches = beer99.match(/|0|1|2|3|4|5|6|7|8|9/g);

// 문자셋은 이러한 문자들이 들어갈 수 있다는 것을 간략하게 표시할 수 있다.
const m1 = beer99.match(/[0123456789]/g);
const m2 = beer99.match(/[0-9]/g);

//범위 결합도 가능합니다.
const match = beer99.match(/[\-0-9a-z.]/gi);

//특정 문자 범위를 제외하고도 찾을 수 있다. 문자열 제외시 캐럿(^)을 맨 앞에 붙임
const match = beer99.match(/^[\-0-9a-z.]/gi);

17.9 자주 쓰는 문자셋

매우 자주 쓰이는 일부 문자셋은 단축 표기가 있다.
이를 클래스라고 부르기도 한다.

표 17-1 자주 쓰는 문자셋

공백문자셋 \s을 써서 줄을 맞출 때가 많습니다.

공백

const stuff = "hight: 9\n" + "medium : 5\n" + "low : 2\n";
const levels = stuff.match(/:\s*[0-9]/g);

//전화번호 양식 맞추기
const messyPhone = `(505) 555 - 1515`;
const neatPhone = messyPhone.replace(/\D/g, "");
//neatPhone
//"5055551515"

17.10 반복

반복 메타문자는 얼마나 많이 일치해야하는지 지정할 떄 사용
문자셋 다음의 +는 그 앞에 있는 요소가 하나 이상 있어야한다는 뜻
반복 메타 문자는 그 자체로는 별 의미가 없다.

반복

//숫자 여러개를 찾는 예제
//기존ver
const match = beer99.match(/[0-9][0-9][0-9][0-9][0-9][0-9]/);

//반복 메타 문자로 수정
const match = beer99.match(/[0-9]+/);

표 17-2 반복

17.11 마침표와 이스케이프

정규식에서 마침표(.)는 줄바꿈 문자를 제외한 모든 문자에 일치하는 특수문자입니다.
이 메타문자는 입력이 어떤 문자이든 상관하지 않고 소비하려고 할때 사용

//문자열에서 우편번호만 필요하고 다른것은 필요 없을 때
const input =
  "Address : 333 Main St., Anywhere, NY, 55532. Phone : 555 -555-2525.";
const match = input.match(/\d{5}.*/);
/*
["55532. Phone : 555 -555-2525.", index: 38, input: "Address : 333 Main St., Anywhere, NY, 55532. Phone : 555 -555-2525.", groups: undefined]
*/

//마침표 자체가 필요할 때
const equation = "(2 + 3.5 ) * 7";
const match = equation.match(/\(\d \+ \d\.\d\) \* \d/);

17.11.1 진정한 와일드 카드

마침표가 줄바꿈을 제외한 모든 문자에 일치하면, 줄바꿈 문자를 포함해서 모든 문자에 일치하는 것은 바로 [\s\S]이다.

17.12 그룹

그룹을 사용하면 하위 표현식을 만들고 단위 하나로 취급할 수 있다.
그 그룹에 일치하는 결과를 나중에 사용하도록 캡쳐할 수도 있다.
그룹은 괄호로 만든다. 캡쳐하지 않은 그룹은 (? :[subexpression]) 형태이고, 여기서 [subexpression]이 일치시키려는 패턴이다.

17.13 소극적 일치, 적극적 일치

정규식은 기본적으로 적극적이다. 검색을 멈추기 전에 일치하려는 것을 최대한 많이 찾으려고 한다.

적극적 일치

//<i>태그를 <strong> 태그로 바꿀때

//적극적 일치
const input =
  "Regex pros konw the difference between\n" +
  "<i>greedy</i> and <i>lazy</i> matching.";
var a = input.replace(/<i>(.*)<\/i>/gi, "<strong>$1</strong>");
/*
a를 콘솔에 입력
"Regex pros konw the difference between
<strong>greedy</i> and <i>lazy</strong> matching."
*/

//소극적 일치
var b = input.replace(/<i>(.*?)<\/i>/gi, "<strong>$1</strong>");
/*
"Regex pros konw the difference between
<strong>greedy</strong> and <strong>lazy</strong> matching."
*/

정규식은 일치할 가능성이 있는 동안 문자를 소비하지 않고 계속 넘어간다
정규식은 를 만나면 를 더 찾을 수 없을 때까지 소비하지 않고 계속 진행한다.
원래 문자열에는 가 두개 있으므로, 정규식은 첫번째 것을 무시하고 그대로 진행

반복 메타 문자 *를 소극적으로 바꾸려면 뒤에 ?를 붙이면된다

17.14 역참조

그룹을 사용하면 역참조라는 테그닉을 사용 가능
서브 그룹을 포함해 , 정규식의 각 그룹은 숫자를 할당 받음
숫자는 맨 왼쪽이 1번에서 시작해서 오른쪽으로 갈수록 1씩 늘어남
역슬래시 뒤에 숫자를 써서 이 그룹을 참조 할 수 있다.
즉, \1은 맨 처음 일치한 그룹이 된다.
따욤표의 짝을 맞출 때 등 사용

17.15 그룹 교체

그룹을 사용하면 문자열 교체도 더 다양한 방법으로 사용가능

17.16 함수를 이용한 교체

함수를 사용하면 복잡한 정규식을 단순화 할 수 있다.

17.17 위치 지정

‘–으로 시작하는 문자열’, ‘–로 끝나는 문자열’ 등을 정규식의 앵커라고 부른다.

^는 문자열의 처음
$는 문자열의 마지막

// ## 17.17 위치 지정
const input = "it was the best of times, it was the worst of times";
const beginning = input.match(/^\w+/g); //["it"]
const end = input.match(/\w+$/g); //["times"]

//문자열의 줄바꿈이 들어 갔을 때 각 줄의 처음과 끝을 찾으면 m 플래그 사용
const input = "one line\ntwo line\nthree line\nfour";
const beginning = input.match(/^\w+/gm); //["one", "two", "three", "four"]
const end = input.match(/\w+$/gm); // ["line", "line", "line", "four"]

17.18 단어 경계 일치

단어 경계 메타 문자인 \b 와 \B는 앵커와 마찬가지로 입력을 소비하지 않는다.
단어 경계는 알파벳 또는 숫자(\w)로 시작하는 부분, 알파벳이나 숫자가 아닌 문자(\W)로 시작하는 부분, 또는 문자열의 시작과 끝에 일치한다.

17.19 룩어헤드

룩어헤드는 입력을 소비하지 않는다.
룩어헤드를 쓰면 정규식 하나로 비밀번호의 유효성을 검사가능하다.

룩어헤드

/*
 * 비밀번호가 규칙에 맞도록 검사해서
 * 비밀번호에 대문자와 소문자, 숫자가 최소 하나씩 포함되어야하고,
 * 글자도 아니고 숫자도 아닌 문자는 들어갈 수 없다.
 */
//룩어헤드로 비밀번호 유효성 체크하기
function vaildPassword(p) {
  return /(?=.*[A-Z])(?=.*[0-9])(?=.*[a-z])(?!.*[^a-zA-Z0-9])/.test(p);
}

chapter17. 정규표현식

17.1 부분 문자열 검색과 대체

17.2 정규식 만들기

17.3 정규식 검색

17.4 정규식을 사용한 문자열 교체

17.5 입력 소비

17.6 대체

17.7 HTML 찾기

17.8 문자셋

17.9 자주 쓰는 문자셋

17.10 반복

17.11 마침표와 이스케이프

17.11.1 진정한 와일드 카드

17.12 그룹

17.13 소극적 일치, 적극적 일치

17.14 역참조

17.15 그룹 교체

17.16 함수를 이용한 교체

17.17 위치 지정

17.18 단어 경계 일치

17.19 룩어헤드

Comentarios

Catálogo

Categorias

Your browser is out-of-date!