常用正则表达式列表

preview
需积分: 0 0 下载量 191 浏览量 更新于2012-09-13 收藏 19KB DOCX 举报
正则表达式是一种强大的文本处理工具,用于匹配、查找、替换和分析字符串。在编程语言中,正则表达式常用于数据验证、搜索和提取信息等任务,极大地提高了开发效率。下面将详细介绍给定文件中提到的一些关键正则表达式概念和用法。 1. **转义字符**: - `\` 反斜杠用于转义特殊字符,如`\t`表示制表符,`\n`表示换行,`\r`表示回车。 2. **预定义字符类**: - `\d` 匹配数字(等价于 `[0-9]`) - `\D` 匹配非数字(等价于 `[^0-9]`) - `\s` 匹配空白字符(包括`\t`, `\n`, `\x0B`, `\f`, `\r`) - `\S` 匹配非空白字符(等价于 `[^\t\n\x0B\f\r]`) - `\w` 匹配字母、数字或下划线(等价于 `[a-zA-Z_0-9]`) - `\W` 匹配非字母、数字或下划线(等价于 `[^a-zA-Z_0-9]`) 3. **边界匹配**: - `\b` 匹配单词边界,例如在单词开始或结束处。 - `\B` 匹配非单词边界,即不在单词的开始或结束处。 4. **位置锚点**: - `^` 匹配输入字符串的开始,如果在方括号`[]`内部则表示取反。 - `$` 匹配输入字符串的结束,如果在方括号`[]`内部则表示取反。 5. **量词**: - `*` 表示前面的字符可以出现0次或多次。 - `+` 表示前面的字符至少出现1次。 - `?` 表示前面的字符可以出现0次或1次。 - `{n}` 表示前面的字符必须出现n次。 - `{n,}` 表示前面的字符至少出现n次。 - `{n,m}` 表示前面的字符出现n到m次。 6. **字符类的交集和排除**: - `[abc]` 匹配'a', 'b', 或 'c'。 - `[^abc]` 匹配除了'a', 'b', 和 'c'之外的任何字符。 7. **组合使用**: - 使用`|`分隔符可以匹配多个选项,如`Java|Hello`匹配'Java'或'Hello'。 - 使用`()`可以创建组合,如`<a.*href=\".*\">(.+?)</a>`匹配HTML的`<a>`标签内的文本。 8. **正则表达式模式修饰符**: - `Pattern.CANON_EQ` 关于正規分解的匹配。 - `Pattern.CASE_INSENSITIVE` 忽略大小写匹配,配合`UNICODE_CASE`处理Unicode字符集。 - `Pattern.COMMENTS` 允许注释和空白字符。 - `Pattern.DOTALL` 让`.`匹配包括换行在内的所有字符。 - `Pattern.MULTILINE` 使`^`和`$`匹配每一行的开始和结束。 - `Pattern.UNICODE_CASE` 结合`CASE_INSENSITIVE`,对Unicode字符进行大小写不敏感匹配。 了解并熟练运用这些正则表达式语法,可以更有效地处理文本数据,提高代码的灵活性和可维护性。在实际开发中,根据需求选择适当的正则表达式可以显著提升开发效率。