没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
正则表达式之道
原著:Steve Mansoursman@scruznet.com Revised: June 5, 1999
翻译:Neo Leeneo.lee@gmail.com2004 年 10 月 16 日
译者按:原文因为年代久远,文中很多链接早已过期(主要是关于 vi、sed 等工
具的介绍和手册),本译文中已将此类链接删除,如需检查这些链接可以查看上
面链接的原文。除此之外基本照原文直译,括号中有“译者按”的部分是译者补
充的说明。如有内容方面的问题请直接和 Steve Mansor 联系,当然,如果你只
写中文,也可以和我联系。
什么是正则表达式
一个正则表达式,就是用某种模式去匹配一类字符串的一个公式。很多人因为它
们看上去比较古怪而且复杂所以不敢去使用——很不幸,这篇文章也不能够改变
这一点,不过,经过一点点练习之后我就开始觉得这些复杂的表达式其实写起来
还是相当简单的,而且,一旦你弄懂它们,你就能把数小时辛苦而且易错的文本
处理工作压缩在几分钟(甚至几秒钟)内完成。正则表达式被各种文本编辑软件、
类库(例如 Rogue Wave 的 tools.h++)、脚本工具(像 awk/grep/sed)广泛的
支持,而且像 Microsoft 的 Visual C++这种交互式 IDE 也开始支持它了。
我们将在如下的章节中利用一些例子来解释正则表达式的用法,绝大部分的例子
是基于vi中的文本替换命令和grep文件搜索命令来书写的,不过它们都是比较典
型的例子,其中的概念可以在sed、awk、perl和其他支持正则表达式的编程语言
中使用。你可以看看
不同工具中的正则表达式这一节,其中有一些在别的工具中
使用正则表达式的例子。还有一个关于vi中文本替换命令(s)的
简单说明附在
文后供参考。
正则表达式基础
正则表达式由一些普通字符和一些
元字符(metacharacters)
组成。普通字符包
括大小写的字母和数字,而元字符则具有特殊的含义,我们下面会给予解释。
在最简单的情况下,一个正则表达式看上去就是一个普通的查找串。例如,正则
表达式"testing"中没有包含任何元字符,,它可以匹配"testing"和
"123testing"等字符串,但是不能匹配"Testing"。
要想真正的用好正则表达式,正确的理解元字符是最重要的事情。下表列出了所
有的元字符和对它们的一个简短的描述。
元字符
描述
.
匹配任何单个字符。例如正则表达式 r.t 匹配这些字符串:
rat
、
rut
、
r t
,但是不匹配
root
。
$
匹配行结束符。例如正则表达式 weasel$ 能够匹配字符串"
He's
a weasel
"的末尾,但是不能匹配字符串"
They are a bunch of
weasels.
"。
^
匹配一行的开始。例如正则表达式^When in 能够匹配字符串
"
When in the course of human events
"的开始,但是不能匹
配"
What and When in the"。
*
匹配 0 或多个正好在它之前的那个字符。例如正则表达式.*意
味着能够匹配任意数量的任何字符。
\
这是引用府,用来将这里列出的这些元字符当作普通的字符来
进行匹配。例如正则表达式\$被用来匹配美元符号,而不是行
尾,类似的,正则表达式\.用来匹配点字符,而不是任何字符
的通配符。
[ ]
[c1-c2]
[^c1-c2]
匹配括号中的任何一个字符。例如正则表达式 r[aou]t 匹配
rat
、
rot
和
rut
,但是不匹配
ret
。可以在括号中使用连字符-
来指定字符的区间,例如正则表达式[0-9]可以匹配任何数字字
符;还可以制定多个区间,例如正则表达式[A-Za-z]可以匹配
任何大小写字母。另一个重要的用法是“排除”,要想匹配
除
了
指定区间之外的字符——也就是所谓的补集——在左边的括
号和第一个字符之间使用^字符,例如正则表达式[^269A-Z] 将
匹配除了 2、6、9 和所有大写字母之外的任何字符。
\< \>
匹配词(
word
)的开始(\<)和结束(\>)。例如正则表达式
\<the 能够匹配字符串"
for the wise
"中的"the",但是不能匹
配字符串"
otherwise
"中的"the"。注意:这个元字符不是所有
的软件都支持的。
\( \)
将 \( 和 \) 之间的表达式定义为“组”(
group
),并且将匹
配这个表达式的字符保存到一个临时区域(一个正则表达式中
最多可以保存 9 个),它们可以用 \1 到\9 的符号来引用。
|
将两个匹配条件进行逻辑“或”(
Or
)运算。例如正则表达式
(him|her) 匹配"
it belongs to him
"和"
it belongs to her
",
但是不能匹配"
it belongs to them.
"。注意:这个元字符不是
所有的软件都支持的。
+
匹配 1 或多个正好在它之前的那个字符。例如正则表达式 9+匹
配9、99、999等。注意:这个元字符不是所有的软件都支持的。
?
匹配0或1个正好在它之前的那个字符。注意:这个元字符不
是所有的软件都支持的。
\{
i
\}
\{
i
,
j
\}
匹配指定数目的字符,这些字符是在它之前的表达式定义的。
例如正则表达式 A[0-9]\{3\} 能够匹配字符"A"后面跟着正
好 3 个数字字符的串,例如 A123、A348 等,但是不匹配 A1234。
而正则表达式[0-9]\{4,6\} 匹配连续的任意 4 个、5 个或者
6 个数字字符。注意:这个元字符不是所有的软件都支持的。
最简单的元字符是点,它能够匹配任何单个字符(注意不包括新行符)。假定有
个文件 test.txt 包含以下几行内容:
he is a rat
he is in a rut
the food is Rotten
I like root beer
我们可以使用 grep 命令来测试我们的正则表达式,grep 命令使用正则表达式去
尝试匹配指定文件的每一行,并将至少有一处匹配表达式的所有行显示出来。命
令
grep r.t test.txt
在 test.txt 文件中的每一行中搜索正则表达式 r.t,并打印输出匹配的行。正
则表达式 r.t 匹配一个 r 接着任何一个字符再接着一个 t。所以它将匹配文件中
的 rat 和 rut,而不能匹配 Rotten 中的 Rot,因为正则表达式是大小写敏感的。
要想同时匹配大写和小写字母,应该使用字符区间元字符(方括号)。正则表达
式[Rr]能够同时匹配 R 和 r。所以,要想匹配一个大写或者小写的 r 接着任何一
个字符再接着一个 t 就要使用这个表达式:[Rr].t。
要想匹配行首的字符要使用抑扬字符(
^
)——又是也被叫做插入符。例如,想
找到 text.txt 中行首"he"打头的行,你可能会先用简单表达式 he,但是这会匹
配第三行的 the,所以要使用正则表达式^he,它只匹配在行首出现的 h。
有时候指定“除了×××都匹配”会比较容易达到目的,当抑扬字符(
^
)出现
在方括号中是,它表示“排除”,例如要匹配 he ,但是排除前面是 t or s 的
情性(也就是 the 和 she),可以使用:[^st]he。
可以使用方括号来指定多个字符区间。例如正则表达式[A-Za-z]匹配任何字母,
包括大写和小写的;正则表达式[A-Za-z][A-Za-z]* 匹配一个字母后面接着 0
或者多个字母(大写或者小写)。当然我们也可以用元字符+做到同样的事情,
也就是:[A-Za-z]+ ,和[A-Za-z][A-Za-z]*完全等价。但是要注意元字符+ 并
不是所有支持正则表达式的程序都支持的。关于这一点可以参考后面的正则表达
式语法支持情况。
要指定特定数量的匹配,要使用大括号(注意必须使用反斜杠来转义)。想匹配
所有 100 和 1000 的实例而排除 10 和 10000,可以使用:10\{2,3\},这个正则
表达式匹配数字 1 后面跟着 2 或者3个0的模式。在这个元字符的使用中一个有
用的变化是忽略第二个数字,例如正则表达式 0\{3,\} 将匹配至少 3 个连续的 0。
简单的例子
这里有一些有代表性的、比较简单的例子。
vi 命令
作用
:%s/ */ /g
把一个或者多个空格替换为一个空格。
:%s/ *$//
去掉行尾的所有空格。
:%s/^/ /
在每一行头上加入一个空格。
:%s/^[0-9][0-9]* //
去掉行首的所有数字字符。
:%s/b[aeio]g/bug/g
将所有的
bag
、
beg
、
big
和
bog
改为
bug
。
:%s/t\([aou]\)g/h\1t/g
将所有
tag
、
tog
和
tug
分别改为
hat
、
hot
和
hug
(注意用 group 的用法和使用\1 引用
前面被匹配的字符)。
中级的例子(神奇的咒语)
例1
将所有方法 foo(
a,b,c
)的实例改为 foo(
b,a,c
)。这里 a、b 和 c 可以是任何提供
给方法 foo()的参数。也就是说我们要实现这样的转换:
之前 之后
foo(10,7,2) foo(7,10,2)
foo(x+13,y-2,10) foo(y-2,x+13,10)
foo( bar(8), x+y+z, 5) foo( x+y+z, bar(8), 5)
下面这条替换命令能够实现这一魔法:
:%s/foo(\([^,]*\),\([^,]*\),\([^)]*\))/foo(\2,\1,\3)
/g
现在让我们把它打散来加以分析。写出这个表达式的基本思路是找出 foo()和它
的括号中的三个参数的位置。第一个参数是用这个表达式来识别的::
\([^,]*\),我们可以从里向外来分析它:
[^,]
除了逗号之外的任何字符
[^,]*
0 或者多个非逗号字符
\([^,]*\)
将这些非逗号字符标记为\1,这样可以在之后的替换模式表达式
中引用它
\([^,]*\),
我们必须找到 0 或者多个非逗号字符后面跟着一个逗号,并且非
逗号字符那部分要标记出来以备后用。
现在正是指出一个使用正则表达式常见错误的最佳时机。为什么我们要使用
[^,]*这样的一个表达式,而不是更加简单直接的写法,例如:.*,来匹配第
一个参数呢?设想我们使用模式.*来匹配字符串"10,7,2",它应该匹配"10,"还
是"10,7,"?为了解决这个两义性(ambiguity),正则表达式规定一律按照最长
的串来,在上面的例子中就是"10,7,",显然这样就找出了两个参数而不是我们
期望的一个。所以,我们要使用[^,]*来强制取出第一个逗号之前的部分。
这个表达式我们已经分析到了:foo(\([^,]*\),这一段可以简单的翻译为
“当你找到 foo(就把其后直到第一个逗号之前的部分标记为\1”。然后我们使
用同样的办法标记第二个参数为\2。对第三个参数的标记方法也是一样,只是
我们要搜索所有的字符直到右括号。我们并没有必要去搜索第三个参数,因为我
们不需要调整它的位置,但是这样的模式能够保证我们只去替换那些有三个参数
的 foo()方法调用,在 foo()是一个重载(overoading)方法时这种明确的模式
往往是比较保险的。然后,在替换部分,我们找到 foo()的对应实例,然后利用
标记好的部分进行替换,是的第一和第二个参数交换位置。
例2
假设有一个 CSV(comma separated value)文件,里面有一些我们需要的信息,
但是格式却有问题,目前数据的列顺序是:姓名,公司名,州名缩写,邮政编码,
现在我们希望讲这些数据重新组织,以便在我们的某个软件中使用,需要的格式
为:姓名,州名缩写-邮政编码,公司名。也就是说,我们要调整列顺序,还要
合并两个列来构成一个新列。另外,我们的软件不能接受逗号前后面有任何空格
(包括空格和制表符)所以我们还必须要去掉逗号前后的所有空格。
剩余21页未读,继续阅读
wyfaith
- 粉丝: 10
- 资源: 21
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
- 1
- 2
前往页