正则表达式30分钟入门教程v2.1(高清晰版)资源-CSDN文库

5星 · 超过95%的资源需积分: 10 138 浏览量 2007-08-27 17:00:06 上传评论收藏 92KB PDF 举报

### 正则表达式30分钟入门教程 v2.1(高清晰版) #### 一、正则表达式概述正则表达式是一种强大的文本处理工具，在编程领域中被广泛应用于字符串的查找、替换和验证等操作。通过定义一系列特定的字符组合模式，正则表达式能够帮助开发者实现对文本数据的高效处理。 #### 二、应用场景在开发过程中，常常遇到需要查找符合某些复杂规则的字符串的情况，例如验证电子邮件地址的有效性、提取文档中的URL链接、过滤用户输入的数据等。正则表达式作为一种灵活且功能强大的工具，可以轻松应对这类需求。 #### 三、核心概念解析 1. **元字符**：正则表达式中的特殊字符，具有特定的意义，用于构建更复杂的模式。常见的元字符包括`^`（表示字符串的开始）、`$`（表示字符串的结束）、`.`（匹配任何单个字符）、`*`（匹配前面的表达式零次或多次）、`+`（匹配前面的表达式一次或多次）、`?`（匹配前面的表达式零次或一次）、`{n,m}`（匹配前面的表达式至少n次，最多m次）等。 2. **字符转义**：由于一些字符在正则表达式中有特殊含义，如需匹配这些字符本身，就需要对其进行转义。例如，要匹配`.`字符本身，应写为`\.`。 3. **重复**：通过使用`*`、`+`、`?`以及`{n,m}`等元字符，可以指定某个字符或子模式的出现次数，从而构建更复杂的匹配规则。 4. **字符类**：使用方括号`[]`来指定一组字符中的任意一个，如`[abc]`表示匹配`a`、`b`或`c`中的任意一个字符。可以通过使用`^`来表示不匹配其中的任何字符，如`[^abc]`表示匹配除了`a`、`b`和`c`之外的任何字符。 5. **反义**：正则表达式支持指定不希望匹配的模式，如使用`[^]`、`^(.+)\\1$`等模式来表示排除或匹配特定条件下的非重复文本。 6. **分组与引用**：通过圆括号`()`将多个字符或模式组合起来作为一个整体进行匹配，可以使用反斜杠`\1`、`\2`等来引用之前定义的分组，实现更复杂的匹配逻辑。 7. **位置指定**：使用`^`和`$`分别匹配字符串的开头和结尾，也可以使用`\b`来匹配单词边界。 8. **贪婪与懒惰**：默认情况下，正则表达式的重复量词如`*`、`+`是贪婪的，即尽可能多地匹配字符。通过添加`?`可以使量词变为懒惰（非贪婪），只匹配最少数量的字符。 9. **处理选项**：大多数正则表达式引擎都提供了处理选项，如`i`标志用于忽略大小写、`m`标志用于多行模式等，这些选项可以帮助调整匹配行为。 10. **平衡组/递归匹配**：对于需要匹配嵌套结构的文本，如括号或标签，可以使用平衡组来进行递归匹配。 #### 四、示例分析 - **查找单词“hi”**： - 直接使用`hi`只能匹配到所有包含`hi`的单词，如果想要精确匹配单词“hi”，则应使用`\bhi\b`。 - 其中`\b`表示单词边界，确保匹配的是完整的单词“hi”。 - **查找“hi”后不远处跟着“Lucy”**： - 使用`\bhi\b.*\bLucy\b`。 - 其中`.*`表示匹配任意字符多次，但由于前后都有`\b`限定，因此能够确保“hi”和“Lucy”都在独立的单词中出现。 #### 五、总结正则表达式作为一种高效的文本处理工具，对于程序员而言是非常重要的技能之一。通过理解其核心概念和掌握基本的使用技巧，可以极大地提高文本处理的工作效率。希望本教程能够帮助初学者快速入门正则表达式，并在实践中不断加深理解和应用能力。

资源推荐

资源详情

资源评论

正则表达式30分钟入门教程
正则表达式30分钟入门教程 v2.1
作者：deerchao 来源:unibetter大学生社区 转载请注明来源
目录
1.  本文目标 
2.  如何使用本教程 
3.  
什么是正则表达式？ 
4.  
入门 
5.  
测试正则表达式 
6.  
元字符 
7.  
字符转义 
8.  
重复 
9.  
字符类 
10.  
反义 
11.  
替换 
12.  
分组 
13.  
后向引用 
14.  
位置指定 
15.  
负向位置指定 
16.  
注释 
17.  
贪婪与懒惰 
18.  
处理选项 
19.  
平衡组/递归匹配 
20.  
还有些什么东西没提到 
21.  
一些我认为你可能已经知道的术语的参考 
22.  
网上的资源及本文参考文献 
23.  
更新说明 
本文目标
30分钟内让你明白正则表达式是什么，并对它有一些基本的了解，让你可以在自己的程序或网页
里使用它。
如何使用本教程
file:////D|/sample/正则表达式30分钟入门教程.htm (1 of 14)2007/08/27 16:56:49

正则表达式30分钟入门教程

别被下面那些复杂的表达式吓倒，只要跟着我一步一步来，你会发现正则表达式其实并没有你想

像中的那么困难。当然，如果你看完了这篇教程之后，发现自己明白了很多，却又几乎什么都记

不得，那也是很正常的——我认为，没接触过正则表达式的人在看完这篇教程后，能把提到过的

语法记住80%以上的可能性为零。这里只是让你明白基本的原理，以后你还需要多练习，多查资

料，才能熟练掌握正则表达式。

除了作为入门教程之外，本文还试图成为可以在日常工作中使用的正则表达式语法参考手册（就

作者本人的经历来说，这个目标还是完成得不错的）。

文本格式约定：专业术语元字符/语法格式正则表达式正则表达式中的一部分(用于分析) 用于在

其中搜索的字符串对正则表达式或其中一部分的说明

清除格式

什么是正则表达式？

在编写处理字符串的程序或网页时，经常会有查找符合某些复杂规则的字符串的需要。正则表达

式就是用于描述这些规则的工具。换句话说，正则表达式就是记录文本规则的代码。

很可能你使用过Windows/Dos下用于文件查找的通配符(wildcard)，也就是*和?。如果你想查找某

个目录下的所有的Word文档的话，你会搜索*.doc。在这里，*会被解释成任意的

字符串。和通配

符类似，正则表达式也是用来进行

文本匹配的工具，只不过比起通配符，它能更精确地描述你的

需求——当然，代价就是更复杂——比如你可以编写一个正则表达式，用来查找所有以0开头，

后面跟着2-3个数字，然后是一个连字号“-”，最后是7或8位数字的字符串(像010-12345678或

0376-7654321)。

正则表达式是用于进行文本匹配的工具，所以本文里多次提到了在字符串里搜索/查找，这种说

法的意思是在给定的字符串中，寻找与给定的正则表达式相匹配的部分。有可能字符串里有不止

一个部分满足给定的正则表达式，这时每一个这样的部分被称为一个匹配。匹配在本文里可能会

有三种意思：一种是形容词性的，比如说一个字符串匹配一个表达式；一种是动词性的，比如说

在字符串里匹配正则表达式；还有一种是名词性的，就是刚刚说到的“字符串中满足给定的正则

表达式的一部分”。

入门

学习正则表达式的最好方法是从例子开始，理解例子之后再自己对例子进行修改，实验。下面给

出了不少简单的例子，并对它们作了详细的说明。

假设你在一篇英文小说里查找hi，你可以使用正则正则表达式hi。

这是最简单的正则表达式了，它可以精确匹配这样的字符串：由两个字符组成，前一个字符是h,

后一个是i。通常，处理正则表达式的工具会提供一个忽略大小写的选项，如果选中了这个选项，

file:////D|/sample/正则表达式30分钟入门教程.htm (2 of 14)2007/08/27 16:56:49

正则表达式30分钟入门教程

它可以匹配hi,HI,Hi,hI这四种情况中的任意一种。

不幸的是，很多单词里包含hi这两个连续的字符，比如him,history,high等等。用hi来查找的话，这

里边的hi也会被找出来。如果要精确地查找hi这个单词的话，我们应该使用\bhi\b。

\b是正则表达式规定的一个特殊代码（好吧，某些人叫它元字符，metacharacter），代表着单词

的开头或结尾，也就是单词的分界处。虽然通常英文的单词是由空格或标点符号或换行来分隔

的，但是\b并不匹配这些单词分隔符中的任何一个，它只匹配一个位置。（如果需要更精确的说

法，\b匹配这样的位置：它的前一个字符和后一个字符不全是\w）

假如你要找的是hi后面不远处跟着一个Lucy，你应该用\bhi\b.*\bLucy\b。

这里，.是另一个元字符，匹配除了换行符以外的任意字符。*同样是元字符，不过它代表的不是

字符，也不是位置，而是数量--它指定*前边的内容可以连续重复出现任意次以使整个表达式得到

匹配。因此，.*连在一起就意味着任意数量的不包含换行的字符。现在\bhi\b.*\bLucy\b的意思就

很明显了：先是一个单词hi,然后是任意个任意字符(但不能是换行)，最后是Lucy这个单词。

如果同时使用其它的一些元字符，我们就能构造出功能更强大的正则表达式。比如下面这个例

子：

0\d\d-\d\d\d\d\d\d\d\d匹配这样的字符串：以0开头，然后是两个数字，然后是一个连字

号“-”，最后是8个数字(也就是中国的电话号码。当然，这个例子只能匹配区号为3位的情形)。

这里的\d是一个新的元字符，匹配任意的数字(0，或1，或2，或……)。-不是元字符，只匹配它

本身——连字号。

为了避免那么多烦人的重复，我们也可以这样写这个表达式：0\d{2}-\d{8}

这里\d后面的{2}({8})的意思是前面\d必须连续重复匹配2次(8次)。

测试正则表达式

如果你不觉得正则表达式很难读写的话，要么你是一个天才，要么，你不是地球人。正则表达式

的语法很令人头疼，即使对经常使用它的人来说也是如此。由于难于读写，容易出错，所以很有

必要创建一种工具来测试正则表达式。

由于在不同的环境下正则表达式的一些细节是不相同的，本教程介绍的是Microsoft .Net 2.0下正则

表达式的行为，所以，我向你介绍一个.Net下的工具

Regex Tester。首先你确保已经安装了.Net

Framework 2.0，然后下载Regex Tester，下载完后打开压缩包,直接运行RegexTester.exe。

下面是Regex Tester运行时的截图：

file:////D|/sample/正则表达式30分钟入门教程.htm (3 of 14)2007/08/27 16:56:49

剩余13页未读，继续阅读

评论收藏

内容反馈

julius2017

2011-11-11

不晓得为什么出来之后只是一个打不开的网页？求教～
james-guo

2018-05-17

总结得很好，一直学不好正则，现在可以系统学一下，也可以当成一个查询手册。

上善_若水

粉丝: 1000
资源: 68

正则表达式30分钟入门教程 v2.1(高清晰版)

正则表达式30分钟入门教程 v2.1

正则表达式30分钟入门教程 v2.1版

正则表达式30分钟入门教程.

正则表达式30分钟入门教程doc

正则表达式30分钟入门教程-附常用表达式.chm

正则表达式30分钟入门教程

正则表达式30分钟入门教程-附常用表达式.zip

正则表达式30分钟入门教程.rar

正则表达式30 分钟入门教程

正则表达式30分钟入门教程.chm

正则表达式30分钟入门教程.mht

正则表达式30分钟入门教程_脚本之家

正则表达式30分钟入门教程。轻松简单易学

最新资源