没有合适的资源?快使用搜索试试~ 我知道了~
java 正则表达式 java 正则表达式 java 正则表达式java 正则表达式java 正则表达式
资源推荐
资源详情
资源评论
Java 正则表达式全攻略(一)
摘自网络 http://iwgod.com/know_showKnowledgeByID=knowledge.kid_63.htm
特此声明
本文并非全部原创,我只是在前人的基础上进行针对 Java 的补充和完成。特此向各位前辈致敬。本文来源于以下内容:
维基百科-正则表达式
深入浅出之正则表达式
正则表达式 30 分钟入门教程
什么是正则表达式
正则表达式(英文:Regular Expression)在计算机科学中,是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多
文本编辑器或其他工具里,正则表达式通常被用来检索或替换那些符合某个模式的文本内容。许多程序设计语言都支持利用正则表达式进行字符串
操作。例如,在 Perl 中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由 Unix 中的工具软件(例如 sed 和 grep)普及开
的。“正则表达式”通常缩写成“regex”。
在现实工作场景中,正则表达式常被用于进行输入验证、内容检索、字符串替换等工作。个人认为正则表达式应该算程序员的必修课之一,由于它
应用的非常之广泛,而且在各种语言基本上都可以使用,更重要的是在 Linux 或 Unix 系统下能灵活使用正则表达式也可大大提高工作效率,所
以学习它是非常保值的。
正则表达式与正则表达式引擎
直观而言正则表达式是一段负责正则表达式语法的字符串,而负责处理这段表达式的程序,就是正则表达式引擎。表达式引擎由语言或环境提供,
作为开发者并不直接面对它。我们只需要编写表达式,然后交给表达式引擎进行处理就可以了。不同语言或环境会以不同方式为我们使用正则表达
式提供支持,就拿 Java 语言来说,我们可以在 String.replaceAll() / String.split() / String.matches() 上直接使用正则表达式,又或者通
过 java.util.regex 包中提供的类来使用正则表达式。
不同环境的正则表达式写法与支持或多或少会有一些差别,不过这你可以完全不需要担心,因为这并不影响你使用正则表达式,近代的表达式引擎
都非常类似。Perl 5 类型的引擎应该算应用最为广泛的引擎。如果你想了解各种风格的引擎的语法支持,可以参考《Regexp Syntax Summary》。
表达式与符号
让我们从一个最简单的程序(Java)开始说起:
1: String string = "gooooooogle";
2: String regex = "go*gle";
3: System.out.println(string.matches(regex));
这个段代码运行的话,将会在控制台输出“true”。它是说字符串 string 与正则表达式 regex 匹配,换句话说,就是字符串 string 符合正则
表达式 regex 所描述的模式。在该例子中,最起码我们可以知道正则表达式的操作对象是字符串,而正则表达式也是一个字符串。字符串又是由
字符所构成的,在表达式 go*gle 中 g,o,l,e 是文字字符而 * 是数量限定字符,它代表前面的字符可以不出现,也可以出现一次或者多次。
文字字符
最基本的正则表达式由单个文字符号组成。如 a ,它将匹配字符串中第一次出现的字符“a”。如对字符串“Jack is a boy”。“J”后的“a”
将被匹配。而第二个“a”将不会被匹配。正则表达式也可以匹配第二个“a”,这必须是你告诉正则表达式引擎从第一次匹配的地方开始搜索。在
文本编辑器中,你可以使用“查找下一个”。如果变成 Java 代码的话就是这样:
1: String string = "Jack is a boy";
2: // 将字符串编译为正则表达式的对象表示形式
3: Pattern pattern = Pattern.compile("a");
4: // 创建对字符串 string 根据正则表达式 pattern 进行匹配操作的匹配器对象
5: Matcher matcher = pattern.matcher(string);
6: // 查找下一个匹配的字符串内容,如果找到返回 true,找不到返回 false
7: while(matcher.find()) {
8: // 输出捕获到的匹配内容
9: System.out.print(matcher.group() + "\t");
10: }
类似的,cat 会匹配“About cats and dogs”中的“cat”。这等于是告诉正则表达式引擎,找到一个 c,紧跟一个 a,再跟一个 t。要注意,正
则表达式引擎缺省是大小写敏感的。除非你告诉引擎忽略大小写,否则 cat 不会匹配“Cat”,就像下面这样。(除了这种方法,还可以在表达式
内声明什么内容需要区分大小写什么不需要,这在后面会有介绍)
1: String string = "About Cats and dogs";
2: // 在编译表达式时使用标记 CASE_INSENSITIVE,使表达式忽略大小写
3: Pattern pattern = Pattern.compile("cat", Pattern.CASE_INSENSITIVE);
4: Matcher matcher = pattern.matcher(string);
5: while(matcher.find()) {
6: System.out.print(matcher.group() + "\t");
7: }
特殊字符
对于文字字符,有 11 个字符被保留作特殊用途。他们是:[ ] \ ^ $ . | ? * + ( ) 这些特殊字符也被称作元字符。 如果你想在正则表达式中将
这些字符用作文本字符,你需要用反斜杠“\”对其进行换码 (escape)。例如你想匹配“1+1=2”,正确的表达式为 1\+1=2 。需要注意的是,1+1=2
也是有效的正则表达式。但它不会匹配“1+1=2”,而会匹配“123+111=234”中的“111=2”。因为“+”在这里表示特殊含义(重复 1 次到多次)。
不可显示字符
可以使用特殊字符序列来代表某些不可显示字符:
\t 代表 Tab(0x09)
\r 代表回车符(0x0D)
\n 代表换行符(0x0A)
要注意的是 Windows 中文本文件使用“\r\n”来结束一行而 Unix 使用“\n”。
Java 正则表达式全攻略(二)
正则表达式引擎的内部工作机制
知道正则表达式引擎是如何工作的,将有助于你很快理解为何某个正则表达式不像你期望的那样工作,还可以使你清楚如何对表达式进行性能优化。
从最基本的正则表达式引擎实现思路上来分的话,有两种:确定型有限状态机(Deterministic Finite-State Automaton)简称 DFA 和不确定型有限
状态机(Nodeterministic Finite-State Automaton)简称 NFA,也有人称其为文本导向和正则导向。以下这个网址
http://osteele.com/tools/reanimator/ 以一种非常直观的方式说明了 DFA 和 NFA 对相同的表达式的不同编译结果。
由于我们的目的不在于学习状态机,所以我们忽略这 2 者的工作原理,直接对比他们的影响。就拿表达式 a|ab|abc|abcd 来对比。
我们可以看到 NFA 的结果比较复杂,而 DFA 十分简洁,这是否又会影响到 2 者的性能呢?确实如此,DFA 的执行速度与表达式无关,它在编译时的
优化已经优于大多数 NFA 引擎的复杂优化措施。而 NFA 的执行速度与表达式有着直接的关系。从匹配结果来看,DFA 总是返回最左边最长的匹配结
果,而 NFA 总是比较猴急,总会匹配第一个找到的结果。根据这一点,我们可以轻易分辨出所使用的引擎是 DFA 还是 NFA,你可以使用表达式 nfa|nfa
not 对字符串”nfa not”进行测试,如果匹配结果是 nfa ,那该引擎是 NFA 的,而 Java 就是属于 NFA 的。最后一点就是,NFA 能提供的功能比
DFA 更多,例如:捕获由括号内的子表达式匹配的文本、环视,以及其他复杂的零长度确认、“惰性”量词等。而我们讲的是 Java 的正则表达式,
那当然也就是在说 NFA 啦,而 NFA 由于功能比较多用起来比较方便,因此比 DFA 要流行些。
正则导向的引擎总是返回最左边的匹配
这是需要你理解的很重要的一点:即使以后有可能发现一个“更好”的匹配,正则导向的引擎也总是返回最左边的匹配。 当把 cat 应用到“He
captured a catfish for his cat”,引擎先比较 c 和“H”,结果失败了。于是引擎再比较 c 和“e”,也失败了。直到第四个字符,c 匹配了
“c”。a 匹配了第五个字符。到第六个字符 t 没能匹配“p”,也失败了。引擎再继续从第五个字符重新检查匹配性。直到第十五个字符开始,
cat 匹配上了“catfish”中的“cat”,正则表达式引擎急切的返回第一个匹配的结果,而不会再继续查找是否有其他更好的匹配。
字符集
字符集是由一对方括号“[]”括起来的字符集合。使用字符集,你可以告诉正则表达式引擎仅仅匹配多个字符中的一个。如果你想匹配一个“a”
或一个“e”,使用 [ae]。你可以使用 gr[ae]y 匹配 gray 或 grey。这在你不确定你要搜索的字符是采用美国英语还是英国英语时特别有用。相
反,gr[ae]y 将不会匹配 graay 或 graey。字符集中的字符顺序并没有什么关系,结果都是相同的。
你可以使用连字符“-”定义一个字符范围作为字符集。[0-9] 匹配 0 到 9 之间的单个数字。你可以使用不止一个范围。[0-9a-fA-F] 匹配单个的
十六进制数字,并且大小写不敏感。你也可以结合范围定义与单个字符定义。[0-9a-fxA-FX] 匹配一个十六进制数字或字母 X。再次强调一下,字
符和范围定义的先后顺序对结果没有影响。
取反字符集
在左方括号“[”后面紧跟一个尖括号“^”,将会对字符集取反。结果是字符集将匹配任何不在方括号中的字符。不像“.”,取反字符集是可以
匹配回车换行符的。
需要记住的很重要的一点是,取反字符集必须要匹配一个字符。q[^u] 并不意味着:匹配一个 q,后面没有 u 跟着。它意味着:匹配一个 q,后面
跟着一个不是 u 的字符。所以它不会匹配“Iraq”中的 q,而会匹配“Iraq is a country”中的 q 和一个空格符。事实上,空格符是匹配中的一
部分,因为它是一个“不是 u 的字符”。如果你只想匹配一个 q,条件是 q 后面有一个不是 u 的字符,我们可以用后面将讲到的向前查看来解决。
字符集中的元字符
需要注意的是,在字符集中只有 4 个 字符具有特殊含义。它们是:“] \ ^ -”。“]”代表字符集定义的结束;“\”代表转义;“^”代表取反;
“-”代表范围定义。其他常见的元字符在字符集定义内部都是正常字符,不需要转义。例如,要搜索星号*或加号+,你可以用 [+*] 。当然,如
果你对那些通常的元字符进行转义,你的正则表达式一样会工作得很好,但是这会降低可读性。
在字符集定义中为了将反斜杠“\”作为一个文字字符而非特殊含义的字符,你需要用另一个反斜杠对它进行转义。[\\x] 将会匹配一个反斜杠和
一个 X。“]^-”都可以用反斜杠进行转义,或者将他们放在一个不可能使用到他们特殊含义的位置。我们推荐后者,因为这样可以增加可读性。
比如对于字符“^”,将它放在除了左括号“[”后面的位置,使用的都是文字字符含义而非取反含义。如 [x^] 会匹配一个 x 或^。[]x] 会匹配一
个“]”或“x”。[-x] 或 [x-] 都会匹配一个“-”或“x”。
字符集的简写
因为一些字符集非常常用,所以有一些简写方式。
.
任何字符(与行结束符可能匹配也可能不匹配)
\d
数字:[0-9]
\D
非数字:[^0-9]
\s
空白字符:[\t\n\x0b\f\r]
\S
非空白字符:[^\s]
\w
单词字符:[a-zA-Z_0-9]
\W
非单词字符:[^\w]
字符集的重复
如果你用“?*+”操作符来重复一个字符集,你将会重复整个字符集。而不仅是它匹配的那个字符。正则表达式 [0-9]+ 会匹配 837 以及 222。如
果你仅仅想重复被匹配的那个字符,可以用向后引用达到目的。我们以后将讲到向后引用。
*
重复零次或更多次
+
重复一次或更多次
?
重复零次或一次
{n}
重复 n 次
{n,}
重复 n 次到更多次
{n,m}
重复 n 到 m 次
结合前面的知识,我们就可以写出以下这类常用的表达式:
1: // 判断字符串是否一个合法的 16 进制
2: String regex = "[-+]?0[xX]?[0-9a-fA-F]+";
3: System.out.println("0xFF".matches(regex)); // true
4: System.out.println("-0Xff".matches(regex)); // true
5: System.out.println("ff".matches(regex)); // false
6: System.out.println("0x1H".matches(regex)); // false
7: // 简单地判断一个字符串是否合法的身份证号码
8: regex = "\\d{15}|\\d{18}";
剩余19页未读,继续阅读
资源评论
cassiell
- 粉丝: 0
- 资源: 8
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- yolov5,SSD 可能使用到的一些代码
- 基于c51单片机+DS1302+DHT11温湿度模块+LCD1602显示的万年历硬件原理图+BOM+软件程源码序+仿真图.zip
- NSGA2的MATLAB代码
- Messagepassingtest_GCN_DGL.py
- Sh,Docker 运维好帮手,一招通过 sh 脚本批量快速启动和重启多个Docker 容器
- PCF2123.pdf
- 打开注册表操作.doc
- Windows 常见运行运行库32+64
- WMJUL8iC.html
- 基于3KW光伏并网单相逆变器设计(TMS320F28035控制板+显示板+STM32F103功率板)硬件(原理图+PCB)工程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功