正则表达式 30 分钟入门教程
版本:v2.21 (2007-8-3) 作者:deerchao 来源:unibetter
大学生社区 转载请注明来源
目录
1. 本文目标
2. 如何使用本教程
3. 正则表达式到底是什么?
4. 入门
5. 测试正则表达式
6. 元字符
7. 字符转义
8. 重复
9. 字符类
10. 反义
11. 替换
12. 分组
13. 后向引用
14. 零宽断言
15. 负向零宽断言
16. 注释
17. 贪婪与懒惰
18. 处理选项
19. 平衡组 / 递归匹配
20. 还有些什么东西没提到
21. 联系作者
22. 一些我认为你可能已经知道的术语的参考
23. 网上的资源及本文参考文献
24. 更新说明
本文目标
30 分钟内让你明白正则表达式是什么,并对它有一些基本的了解,让你可以在自己的程序
或网页里使用它。
如何使用本教程
最重要的是——请给我 30 分钟,如果你没有使用正则表达式的经验,请不要试图在 30 秒
内入门。当然,如果你是超人,那自然得另当别论。
别被下面那些复杂的表达式吓倒,只要跟着我一步一步来,你会发现正则表达式其实并没有
你想像中的那么困难。当然,如果你看完了这篇教程之后,发现自己明白了很多,却又几乎什么
都记不得,那也是很正常的——我认为,没接触过正则表达式的人在看完这篇教程后,能把提到
过的语法记住 80%以上的可能性为零。这里只是让你明白基本的原理,以后你还需要多练习,
多使用,才能熟练掌握正则表达式。
除了作为入门教程之外,本文还试图成为可以在日常工作中使用的正则表达式语法参考手册。
就作者本人的经历来说,这个目标还是完成得不错的——你看,我自己也没能把所有的东西记下
来,不是吗?
文本格式约定:专业术语 元字符/语法格式 正则表达式 正则表达式中的一部分(用于分析)
用
于在其中搜索的字符串
对正则表达式或其中一部分的说明 清除格式
正则表达式到底是什么?
在编写处理字符串的程序或网页时,经常会有查找符合某些复杂规则的字符串的需要。正则
表达式就是用于描述这些规则的工具。换句话说,正则表达式就是记录文本规则的代码。
很可能你使用过 Windows/Dos 下用于文件查找的通配符(wildcard),也就是*和?。如果
你想查找某个目录下的所有的 Word 文档的话,你会搜索*.doc。在这里,*会被解释成任意的字
符串。和通配符类似,正则表达式也是用来进行文本 匹配 的工具,只不过比起通配符,它能更精
确地描述你的需求——当然,代价就是更复杂——比如你可以编写一个正则表达式,用来查找所
有以
0
开头,后面跟着
2-3
个数字,然后是一个连字号“ -” ,最后是
7
或
8
位数字的字符串 (像
010-12345678 或 0376-7654321)。
正则表达式是用于进行文本匹配的工具,所以本文里多次提到了在字符串里搜索/查找,这种
说法的意思是在给定的字符串中,寻找与给定的正则表达式相匹配的部分。有可能字符串里有不
止一个部分满足给定的正则表达式,这时每一个这样的部分被称为一个匹配。匹配在本文里可能
会有三种意思:一种是形容词性的,比如说一个字符串匹配一个表达式;一种是动词性的,比如
说在字符串里匹配正则表达式;还有一种是名词性的,就是刚刚说到的“字符串中满足给定的正则
表达式的一部分”。
入门
学习正则表达式的最好方法是从例子开始,理解例子之后再自己对例子进行修改,实验。下
面给出了不少简单的例子,并对它们作了详细的说明。
假设你在一篇英文小说里查找 hi,你可以使用正则表达式 hi。
这是最简单的正则表达式了,它可以精确匹配这样的字符串:由两个字符组成,前一个字符
是
h, 后一个是
i 。通常,处理正则表达式的工具会提供一个忽略大小写的选项,如果选中了这个
选项,它可以匹配 hi,HI,Hi,hI 这四种情况中的任意一种。
不幸的是,很多单词里包含 hi 这两个连续的字符,比如 him,history,high 等等。用 hi 来查
找的话,这里边的 hi 也会被找出来。如果要精确地查找
hi
这个单词 的话,我们应该使用\bhi\
b。
\b 是正则表达式规定的一个特殊代码(好吧,某些人叫它元字符,metacharacter),
代表着单词的开头或结尾,也就是单词的分界处。虽然通常英文的单词是由空格或标点符号或换
行来分隔的,但是\b 并不匹配这些单词分隔符中的任何一个,它只匹配一个位置。(如果需要更
精确的说法,\b 匹配这样的位置:它的前一个字符和后一个字符不全是(一个是,一个不是或不存
在)\w)
假如你要找的是 hi
后面不远处跟着一个
Lucy ,你应该用\bhi\b.*\bLucy\b。
这里,.是另一个元字符,匹配除了换行符以外的任意字符。*同样是元字符,不过它代表的
不是字符,也不是位置,而是数量——它指定*前边的内容可以连续重复出现任意次以使整个表
达式得到匹配。因此,.*连在一起就意味着任意数量的不包含换行的字符。现在\bhi\b.*\bLucy\
b 的意思就很明显了:先是一个单词
hi, 然后是任意个任意字符 ( 但不能是换行 ) ,最后是
Lucy
这
个单词。
如果同时使用其它的一些元字符,我们就能构造出功能更强大的正则表达式。比如下面这个
例子:
0\d\d-\d\d\d\d\d\d\d\d 匹配这样的字符串:以
0
开头,然后是两个数字,然后是一个连字
号“ -” ,最后是
8
个数字 (也就是中国的电话号码。当然,这个例子只能匹配区号为 3 位的情形)。
这里的\d 是一个新的元字符,匹配任意的数字 (0 ,或
1 ,或
2 ,或…… ) 。-不是元字符,只
匹配它本身——连字号。
为了避免那么多烦人的重复,我们也可以这样写这个表达式:0\d{2}-\d{8}。 这里\d 后面
的{2}({8})的意思是前面\d 必须连续重复匹配
2
次 (8
次 ) 。
测试正则表达式
如果你不觉得正则表达式很难读写的话,要么你是一个天才,要么,你不是地球人。正则表
达式的语法很令人头疼,即使对经常使用它的人来说也是如此。由于难于读写,容易出错,所以
很有必要创建一种工具来测试正则表达式。
由于在不同的环境下正则表达式的一些细节是不相同的,本教程介绍的是 Microsoft .Net
2.0 下正则表达式的行为,所以,我向你介绍一个.Net 下的工具 Regex Tester。首先你确保已
经安装了.Net Framework 2.0,然后下载
Regex Tester 。这是个绿色软件,下载完后打开压
缩包,直接运行 RegexTester.exe 就可以了。
下面是 Regex Tester 运行时的截图:
元字符
现在你已经知道几个很有用的元字符了,如\b,.,*,还有\d.当然还有更多的元字符可用,比
如\s 匹配任意的空白符,包括空格,制表符 (Tab) ,换行符,中文全角空格等 。\w 匹配字母或数
字或下划线或汉字等。
下面来试试更多的例子:
\ba\w*\b 匹配以字母
a
开头的单词——先是某个单词开始处 ( \b ) ,然后是字母
a , 然后是任意
数量的字母或数字 ( \w* ) ,最后是单词结束处 ( \b ) (好吧,现在我们说说正则表达式里的单词是什
么意思吧:就是几个连续的\w。不错,这与学习英文时要背的成千上万个同名的东西的确关系不
大)。
\d+匹配 1
个或更多连续的数字 。这里的+是和*类似的元字符,不同的是*匹配重复任意次
( 可能是
0
次 ) ,而+则匹配重复
1
次或更多次 。
\b\w{6}\b 匹配刚好
6
个字母 / 数字的单词 。
表 1.常用的元字符
代码 说明
.
匹配除换行符以外的任意字符
\w 匹配字母或数字或下划线或汉字
\s
匹配任意的空白符
\d 匹配数字
\b
匹配单词的开始或结束
^
匹配字符串的开始
$ 匹配字符串的结束
元字符^(和数字 6 在同一个键位上的符号)以及$和\b 有点类似,都匹配一个位置。^匹
配你要用来查找的字符串的开头,$匹配结尾。这两个代码在验证输入的内容时非常有用,比如
一个网站如果要求你填写的 QQ 号必须为 5 位到 12 位数字时,可以使用:^\d{5,12}$。
这里的{5,12}和前面介绍过的{2}是类似的,只不过{2}匹配只能不多不少重复
2
次 ,
{5,12}则是重复的次数不能少于
5
次,不能多于
12
次 ,否则都不匹配。
因为使用了^和$,所以输入的整个字符串都要用来和\d{5,12}来匹配,也就是说整个输入
必须是
5
到
12
个数字 ,因此如果输入的 QQ 号能匹配这个正则表达式的话,那就符合要求了。
和忽略大小写的选项类似,有些正则表达式处理工具还有一个处理多行的选项。如果选中了
这个选项,^和$的意义就变成了匹配行的开始处和结束处。
字符转义
如果你想查找元字符本身的话,比如你查找.,或者*,就出现了问题:你没法指定它们,因为
它们会被解释成其它的意思。这时你就必须使用\来取消这些字符的特殊意义。因此,你应该使用
\.和\*。当然,要查找\本身,你也得用\\.
例如:www\.unibetter\.com 匹配 www.unibetter.com,c:\\Windows 匹配 c:\
Windows。
重复
你已经看过了前面的*,+,{2},{5,12}这几个匹配重复的方式了。下面是正则表达式中所有
的限定符(指定数量的代码,例如*,{5,12}等):
表 2.常用的限定符
代码/语法 说明
* 重复零次或更多次
+
重复一次或更多次
? 重复零次或一次
{n}
重复
n
次
{n,} 重复
n
次或更多次
{n,m}
重复
n
到
m
次
下面是一些使用重复的例子:
Windows\d+匹配 Windows
后面跟
1
个或更多数字
13\d{9}匹配 13
后面跟
9
个数字 ( 中国的手机号 )
^\w+匹配一行的第一个单词 ( 或整个字符串的第一个单词,具体匹配哪个意思得看选项设
置 )