正则表达式之道资源-CSDN文库

java

正则表达式

5星 · 超过95%的资源需积分: 10 136 浏览量 2007-10-30 16:37:28 上传评论收藏 899KB PDF 举报

资源推荐

资源详情

资源评论

正则表达式之道

原著：Steve Mansoursman@scruznet.com Revised: June 5, 1999

翻译：Neo Leeneo.lee@gmail.com2004 年 10 月 16 日

译者按：原文因为年代久远，文中很多链接早已过期（主要是关于 vi、sed 等工

具的介绍和手册），本译文中已将此类链接删除，如需检查这些链接可以查看上

面链接的原文。除此之外基本照原文直译，括号中有“译者按”的部分是译者补

充的说明。如有内容方面的问题请直接和 Steve Mansor 联系，当然，如果你只

写中文，也可以和我联系。

什么是正则表达式

一个正则表达式，就是用某种模式去匹配一类字符串的一个公式。很多人因为它

们看上去比较古怪而且复杂所以不敢去使用——很不幸，这篇文章也不能够改变

这一点，不过，经过一点点练习之后我就开始觉得这些复杂的表达式其实写起来

还是相当简单的，而且，一旦你弄懂它们，你就能把数小时辛苦而且易错的文本

处理工作压缩在几分钟（甚至几秒钟）内完成。正则表达式被各种文本编辑软件、

类库（例如 Rogue Wave 的 tools.h++）、脚本工具（像 awk/grep/sed）广泛的

支持，而且像 Microsoft 的 Visual C++这种交互式 IDE 也开始支持它了。

我们将在如下的章节中利用一些例子来解释正则表达式的用法，绝大部分的例子

是基于vi中的文本替换命令和grep文件搜索命令来书写的，不过它们都是比较典

型的例子，其中的概念可以在sed、awk、perl和其他支持正则表达式的编程语言

中使用。你可以看看

不同工具中的正则表达式这一节，其中有一些在别的工具中

使用正则表达式的例子。还有一个关于vi中文本替换命令（s）的

简单说明附在

文后供参考。

正则表达式基础

正则表达式由一些普通字符和一些

元字符（metacharacters）

组成。普通字符包

括大小写的字母和数字，而元字符则具有特殊的含义，我们下面会给予解释。

在最简单的情况下，一个正则表达式看上去就是一个普通的查找串。例如，正则

表达式"testing"中没有包含任何元字符，，它可以匹配"testing"和

"123testing"等字符串，但是不能匹配"Testing"。

要想真正的用好正则表达式，正确的理解元字符是最重要的事情。下表列出了所

有的元字符和对它们的一个简短的描述。

元字符

描述

匹配任何单个字符。例如正则表达式 r.t 匹配这些字符串：

rat

、

rut

、

r t

，但是不匹配

root

。

匹配行结束符。例如正则表达式 weasel$ 能够匹配字符串"

He's

a weasel

"的末尾，但是不能匹配字符串"

They are a bunch of

weasels.

"。

匹配一行的开始。例如正则表达式^When in 能够匹配字符串

When in the course of human events

"的开始，但是不能匹

配"

What and When in the"。

匹配 0 或多个正好在它之前的那个字符。例如正则表达式.*意

味着能够匹配任意数量的任何字符。

这是引用府，用来将这里列出的这些元字符当作普通的字符来

进行匹配。例如正则表达式\$被用来匹配美元符号，而不是行

尾，类似的，正则表达式\.用来匹配点字符，而不是任何字符

的通配符。

[ ]

[c1-c2]

[^c1-c2]

匹配括号中的任何一个字符。例如正则表达式 r[aou]t 匹配

rat

、

rot

和

rut

，但是不匹配

ret

。可以在括号中使用连字符-

来指定字符的区间，例如正则表达式[0-9]可以匹配任何数字字

符；还可以制定多个区间，例如正则表达式[A-Za-z]可以匹配

任何大小写字母。另一个重要的用法是“排除”，要想匹配

除

了

指定区间之外的字符——也就是所谓的补集——在左边的括

号和第一个字符之间使用^字符，例如正则表达式[^269A-Z] 将

匹配除了 2、6、9 和所有大写字母之外的任何字符。

\< \>

匹配词（

word

）的开始（\<）和结束（\>）。例如正则表达式

\<the 能够匹配字符串"

for the wise

"中的"the"，但是不能匹

配字符串"

otherwise

"中的"the"。注意：这个元字符不是所有

的软件都支持的。

将 $ 和 $ 之间的表达式定义为“组”（

group

），并且将匹

配这个表达式的字符保存到一个临时区域（一个正则表达式中

最多可以保存 9 个），它们可以用 \1 到\9 的符号来引用。

将两个匹配条件进行逻辑“或”（

）运算。例如正则表达式

(him|her) 匹配"

it belongs to him

"和"

it belongs to her

"，

但是不能匹配"

it belongs to them.

"。注意：这个元字符不是

所有的软件都支持的。

匹配 1 或多个正好在它之前的那个字符。例如正则表达式 9+匹

配9、99、999等。注意：这个元字符不是所有的软件都支持的。

匹配0或1个正好在它之前的那个字符。注意：这个元字符不

是所有的软件都支持的。

匹配指定数目的字符，这些字符是在它之前的表达式定义的。

例如正则表达式 A[0-9]\{3\} 能够匹配字符"A"后面跟着正

好 3 个数字字符的串，例如 A123、A348 等，但是不匹配 A1234。

而正则表达式[0-9]\{4,6\} 匹配连续的任意 4 个、5 个或者

6 个数字字符。注意：这个元字符不是所有的软件都支持的。

最简单的元字符是点，它能够匹配任何单个字符（注意不包括新行符）。假定有

个文件 test.txt 包含以下几行内容：

he is a rat

he is in a rut

the food is Rotten

I like root beer

我们可以使用 grep 命令来测试我们的正则表达式，grep 命令使用正则表达式去

尝试匹配指定文件的每一行，并将至少有一处匹配表达式的所有行显示出来。命

令

grep r.t test.txt

在 test.txt 文件中的每一行中搜索正则表达式 r.t，并打印输出匹配的行。正

则表达式 r.t 匹配一个 r 接着任何一个字符再接着一个 t。所以它将匹配文件中

的 rat 和 rut，而不能匹配 Rotten 中的 Rot，因为正则表达式是大小写敏感的。

要想同时匹配大写和小写字母，应该使用字符区间元字符（方括号）。正则表达

式[Rr]能够同时匹配 R 和 r。所以，要想匹配一个大写或者小写的 r 接着任何一

个字符再接着一个 t 就要使用这个表达式：[Rr].t。

要想匹配行首的字符要使用抑扬字符（

）——又是也被叫做插入符。例如，想

找到 text.txt 中行首"he"打头的行，你可能会先用简单表达式 he，但是这会匹

配第三行的 the，所以要使用正则表达式^he，它只匹配在行首出现的 h。

有时候指定“除了×××都匹配”会比较容易达到目的，当抑扬字符（

）出现

在方括号中是，它表示“排除”，例如要匹配 he ，但是排除前面是 t or s 的

情性（也就是 the 和 she），可以使用：[^st]he。

可以使用方括号来指定多个字符区间。例如正则表达式[A-Za-z]匹配任何字母，

包括大写和小写的；正则表达式[A-Za-z][A-Za-z]* 匹配一个字母后面接着 0

或者多个字母（大写或者小写）。当然我们也可以用元字符+做到同样的事情，

也就是：[A-Za-z]+ ，和[A-Za-z][A-Za-z]*完全等价。但是要注意元字符+ 并

不是所有支持正则表达式的程序都支持的。关于这一点可以参考后面的正则表达

式语法支持情况。

现在让我们把它打散来加以分析。写出这个表达式的基本思路是找出 foo()和它

的括号中的三个参数的位置。第一个参数是用这个表达式来识别的：：

$[^,]*$，我们可以从里向外来分析它：

[^,]

除了逗号之外的任何字符

[^,]*

0 或者多个非逗号字符

$[^,]*$

将这些非逗号字符标记为\1，这样可以在之后的替换模式表达式

中引用它

$[^,]*$,

我们必须找到 0 或者多个非逗号字符后面跟着一个逗号，并且非

逗号字符那部分要标记出来以备后用。

现在正是指出一个使用正则表达式常见错误的最佳时机。为什么我们要使用

[^,]*这样的一个表达式，而不是更加简单直接的写法，例如：.*，来匹配第

一个参数呢？设想我们使用模式.*来匹配字符串"10,7,2"，它应该匹配"10,"还

是"10,7,"？为了解决这个两义性（ambiguity），正则表达式规定一律按照最长

的串来，在上面的例子中就是"10,7,"，显然这样就找出了两个参数而不是我们

期望的一个。所以，我们要使用[^,]*来强制取出第一个逗号之前的部分。

这个表达式我们已经分析到了：foo($[^,]*$，这一段可以简单的翻译为

“当你找到 foo(就把其后直到第一个逗号之前的部分标记为\1”。然后我们使

用同样的办法标记第二个参数为\2。对第三个参数的标记方法也是一样，只是

我们要搜索所有的字符直到右括号。我们并没有必要去搜索第三个参数，因为我

们不需要调整它的位置，但是这样的模式能够保证我们只去替换那些有三个参数

的 foo()方法调用，在 foo()是一个重载（overoading）方法时这种明确的模式

往往是比较保险的。然后，在替换部分，我们找到 foo()的对应实例，然后利用

标记好的部分进行替换，是的第一和第二个参数交换位置。

例2

假设有一个 CSV（comma separated value）文件，里面有一些我们需要的信息，

但是格式却有问题，目前数据的列顺序是：姓名，公司名，州名缩写，邮政编码，

现在我们希望讲这些数据重新组织，以便在我们的某个软件中使用，需要的格式

为：姓名，州名缩写-邮政编码，公司名。也就是说，我们要调整列顺序，还要

合并两个列来构成一个新列。另外，我们的软件不能接受逗号前后面有任何空格

（包括空格和制表符）所以我们还必须要去掉逗号前后的所有空格。

剩余21页未读，继续阅读

评论收藏

内容反馈

zlf123

2016-05-21

的确是非常好的学习资料，谢谢分享！！！
GDemo

2014-07-24

感谢楼主分享
wllyou12

2016-04-05

很不错得资源，谢谢分享！
黑壳白壳都是壳

2015-06-30

真的很好的资源
seapeaks

2017-06-26

资源内容丰富，可以下载

前往

页

wyfaith

粉丝: 10
资源: 21

正则表达式之道

正则表达式之道.rar

正则表达式之道.pdf

轻松使用正则表达式之道

正则表达式之道 电子书 下载

正则表达式之道.doc

超全面的正则表达式之道

正则表达式之道 Steve

正则表达式之道-ppt

软件测试之道

数据分析之道

正则表达式之道（A Tao of Regular Expressions）.html

软件设计之道

单元测试之道-1

程序设计之道

单元测试之道

职场之道

说话之道（二）

Ajax之道

基于spring boot的小区物业管理系统源码+论文+答辩ppt

STM32CubeMX安装包(版本:6.9.0) 附带 Java安装包(版本:371) - -2023年7月14日

最新Java JDK 8安装版（Windows 64位）

Java实现ocr图片识别（PaddleOCR）飞桨

自主研发的软著申请代码文档整理输出工具

毕业设计-基于JAVA的springboot超市进销存系统(源代码+论文）

Java 面经手册·小傅哥.pdf

最新资源

正则表达式之道电子书下载