正则表达式

参考：正则表达式

一、概述

# 正则表达式
nam.
# 匹配结果
My name is DS中的name

abcd
abc1
abc2
# 匹配到了abcd

元字符	说明
\d	数字字符，等价于[0-9]
\D	非数字字符，等价于[^0-9]

元字符	说明
\w	大小写字母，下划线和数字，等价于[a-zA-Z0-9]
\W	对\w取非

元字符	说明
\s	任何一个空白字符，等价于[\f\n\r\t\v]
\S	对\s取非

+匹配1个或者多个字符，*匹配0个或者多个，？匹配0个或者1个
应用
- 匹配邮箱地址[\w.]+@\w+\.\w+
- [\w.] 匹配的是字母数字或者 . ，在其后面加上 + ，表示匹配多次。在字符集合 [ ] 里，. 不是元字符；
- abc.def@qq.com
一般的把转义的字符放在字符集合[ ]中，含义相同

[\w.]+@\w+\.\w+
[\w.]+@[\w]+[\.][\w]+

{n} 匹配 n 个字符，{m, n} 匹配 m~n 个字符，{m,} 至少匹配 m 个字符；
和 + 都是贪婪型元字符，会匹配最多的内容，在元字符后面加 ? 可以转换为懒惰型元字符，例如 *?、+? 和 {m, n}? 。
eg：a.+c，由于 + 是贪婪型的，因此 .+ 会匹配更可能多的内容，所以会把整个abcabcabc 文本都匹配，而不是只匹配前面的 abc 文本。用懒惰型可以实现匹配前面的

192.168.0.1
00.00.00.00
555.555.555.555

匹配到了第一个

回溯引用使用 \n 来引用某个子表达式，其中 n 代表的是子表达式的序号，从 1 开始。它和子表达式匹配的内容一致，比如子表达式匹配到 abc，那么回溯引用部分也需要匹配 abc 。
应用：匹配 HTML 中合法的标题元素。
- \1 将回溯引用子表达式 (h[1-6]) 匹配的内容，也就是说必须和子表达式匹配的内容一致，<(h[1-6])>\w*?<\/\1>

<h1>x</h1>
<h2>x</h2>
<h3>x</h1>
匹配到了前面两个

替换
- 修改电话号码格式，如313-555-1234，正则表达式(\d{3})(-)(\d{3})(-)(\d{4})
- 替换正则表达式 ：在第一个子表达式查找的结果加上 () ，然后加一个空格，在第三个和第五个字表达式查找的结果中间加上 - 进行分隔，那么就可以用到替换($1) $3-$5
- 结果为：(313) 555-1234
大小写替换

应用：把文本的第二个和第三个字符转换为大写
- 文本：abcd
- 先查找匹配：(\w)(\w{2})(\w)
- 替换：$1\U$2\E$3
- 结果：aBCd

前后查找规定了匹配的内容首尾应该匹配的内容，但是又不包含首尾匹配的内容。向前查找用 ?= 来定义，它规定了尾部匹配的内容，这个匹配的内容在 ?= 之后定义。所谓向前查找，就是规定了一个匹配的内容，然后以这个内容为尾部向前面查找需要匹配的内容。向后匹配用 ?<= 定义（注: javaScript 不支持向后匹配, java 对其支持也不完善）。
\w+(?=@)匹配结果abc @qq.com
对向前和向后查找取非，只要把 = 替换成 ! 即可，比如 (?=) 替换成 (?!) 。取非操作使得匹配那些首尾不符合要求的内容。

条件判断为某个子表达式是否匹配，如果匹配则需要继续匹配条件表达式后面的内容。
子表达式 (() 匹配一个左括号，其后的 ? 表示匹配 0 个或者 1 个。 ?(1) 为条件，当子表达式 1 匹配时条件成立，需要执行 ) 匹配，也就是匹配右括号。 ($)?abc(?(1)$)
- (abc)
- abc
- (abc

条件为定义的首尾是否匹配，如果匹配，则继续执行后面的匹配。注意，首尾不包含在匹配的内容中。
\d{5}(?(?=-)-\d{4})，?(?=-) 为前向查找条件，只有在以 - 为前向查找的结尾能匹配 \d{5} ，才继续匹配 -\d{4} 。
- 11111
- 22222-
- 33333-4444