来源于Perl的正则表达式是一门简单语言的语法规范.zip资源-CSDN文库

共6个文件

jpg：4个

md：1个

jpeg：1个

需积分: 1 69 浏览量 2024-06-15 10:32:44 上传评论收藏 221KB ZIP 举报

正则表达式是一种在Perl语言中广泛使用的模式匹配工具，它允许程序员或系统管理员通过简洁的语法来查找、替换或处理文本字符串中的特定模式。在Perl中，正则表达式是一种强大的工具，它被用于数据验证、文本提取、文本替换等任务。下面将详细介绍Perl中的正则表达式语法。一、基本概念 1. **字符类**：正则表达式中的字符类用于匹配特定类型的字符，如 `[abc]` 匹配 'a'、'b' 或 'c'。`[^abc]` 则匹配除 'a'、'b' 和 'c' 之外的任何字符。 2. **量词**：量词用来指定一个模式应该匹配多少次。例如，`*` 表示前面的字符可以出现零次或多次，`+` 表示至少一次，`?` 表示零次或一次，`{n}` 表示精确匹配 n 次，`{n,}` 表示至少 n 次，`{n,m}` 表示介于 n 和 m 次之间。 3. **边界匹配器**：`\b` 用于匹配单词边界，`\B` 则匹配非单词边界。`^` 匹配字符串的开始，`$` 匹配字符串的结束。 4. **转义字符**：`\` 用于转义特殊字符，如 `\.` 表示匹配一个实际的点号，而不仅仅是任何字符。二、预定义字符类 1. `\d` 等价于 `[0-9]`，匹配任何数字。 2. `\D` 等价于 `[^0-9]`，匹配非数字字符。 3. `\s` 匹配任何空白字符，包括空格、制表符、换页符等。 4. `\S` 匹配任何非空白字符。 5. `\w` 等价于 `[A-Za-z0-9_]`，匹配字母、数字和下划线。 6. `\W` 等价于 `[^A-Za-z0-9_]`，匹配非字母、数字和下划线的字符。三、断言和分组 1. **断言**：`(?=pattern)` 是前瞻断言，表示匹配的位置后面必须跟着 pattern。`(?!pattern)` 是负前瞻断言，表示匹配的位置后面不能跟着 pattern。 2. **分组**：`(pattern)` 用于创建子模式，可以捕获匹配的部分并用于回溯引用。例如，`(\d{3})-(\d{2})-(\d{4})` 可以匹配美国格式的日期。四、回溯引用在分组中捕获的模式可以通过 `\1`、`\2` 等回溯引用，再次使用之前捕获的内容。例如，`(\w+)\s+\1` 可以匹配重复的单词，如 "hello hello"。五、选择和重复 `|` 符号用于指定两种或多种可能的匹配方式，如 `cat|dog` 可以匹配 "cat" 或 "dog"。结合量词，可以实现复杂的匹配逻辑。六、模式修饰符模式修饰符可以在正则表达式末尾使用，改变其行为。常见的有： - `i`：使匹配对大小写不敏感。 - `m`：使 `^` 和 `$` 分别匹配每一行的开始和结束。 - `g`：全局匹配，找到所有匹配，而非仅第一个。七、实例应用 Perl正则表达式常用于文件名处理、日志分析、网页抓取等领域。例如，`/http:\/\/[^\s]+/` 可以匹配URL，`/^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$/` 可以验证电子邮件地址的格式。 Perl中的正则表达式提供了一种强大的文本处理能力，它的灵活性和可扩展性使得在处理字符串时能实现复杂的逻辑，是任何Perl程序员的必备技能。通过深入理解和实践，可以更好地掌握这门语言的精髓。

资源推荐

资源详情

资源评论

收起资源包目录

来源于Perl的正则表达式是一门简单语言的语法规范.zip （6个子文件）

RegExp-master

img

位置.jpg 13KB

边界.jpg 26KB

非边界.jpg 41KB

环视.jpg 24KB

README.md 19KB

萝莉酱.jpeg 120KB

# javascript正则表达式<sup>谢忠阳</sup> ### 前言正则表达式一直是困扰很多程序员的一门技术。前端面试过程中多少会被问到一些简单的正则表达式，但大部分应试者都会说：正则不是很了解，遇到问题都会直接搜索复制粘贴。我觉得作为程序开发者，有必要好好了解一下正则，因为很多问题都可以通过一条简单的正则表达式解决，避免写大量脚本去实现。希望这次分享能帮助大家掌握基础的正则，揭开正则表达式各种符号的神秘面纱，从此走上正则大神之路！ ### 什么是正则表达式来源于Perl的正则表达式是一门简单语言的语法规范，主要应用于字符串的信息实现查找、替换和提取的`技巧`操作。这里强调是技巧操作，其处理字符串的速度是相当慢的，远不如indexOf、lastIndexOf、includes的速度快，所以勿滥用！但又必须学会，有些需求还非正则解决不了呢。 > 正则表达式的核心是：要么匹配`字符`，要么匹配`位置`！<br/> > 正则：匹配`字符`，匹配`位置`！<br/> > 正则：`字符` `位置`！ ### 常见正则问题： - 将123456789转化为`123,456,789` - 验证密码必须8位以上，以字母开头，必须含有数字、大小写字母 - 剔除字符串中所有html的标签 ## 正则表达式基础 ### 原子（字符）原子是正则表达式的最基本组成单位，而且必须至少要包含一个原子。 | 正则　| 意思 | 说明 | | ------------ |:-------------| -----| |. |匹配除换行符以外的任意字符|加/s表示所有字符| |\d |匹配一个数字字符|等价于 \[0-9]| |\D |匹配一个非数字字符|等价于 \[^0-9]| |\w |匹配包括下划线的任何单词字符|等价于\[A-Za-z0-9_]| |\W |匹配任何非单词字符|等价于\[^A-Za-z0-9_]| |\s |匹配任何空白字符，包括空格、制表符、换页符等等|等价于\[\f\n\r\t\v\u000B\u0020\u00A0\u2028\u2029]| |\S |匹配任何非空白字符|等价于 \[^ \f\n\r\t\v]| |\n |匹配一个换行符|等价于 \x0a 和 \cJ| |\f |匹配一个换页符|等价于 \x0c 和 \cL| |\r |匹配一个回车符|等价于 \x0d 和 \cM| |\t |匹配一个制表符|等价于 \x09 和 \cI| |\v |匹配一个垂直制表符|等价于 \x0b 和 \cK| |\xxx |匹配八进制规定的ASCII编码字符|比如\[0-9]可写成\[\48-\57]| |\xdd |匹配十六进制规定的ASCII编码字符|比如\[0-9]可写成\[\x30-\x39]| |\uxxxx |匹配十六进制规定的Unicode字符|比如\[0-9]可写成\[\u0030-\u0039]| |[A-Za-z]|匹配所有大小写字母| 等价于 /\[a-z]/i | |[^a-z]|匹配非字母|匹配指定范围以外的字符| |[a-f1-5]|自定义原子表又称`范围集合类`| | #### 范围集合类 [abc]，表示a或者b或者c中的任意一个字符； [a-z]、[A-Z]、[0-9]，表示小写字母，大写字母，0到9的数字； [^a-z]、[^A-Z]、[^0-9]，表示非小写字母，非大写字母，非0到9的数字；更多参见基本多语言面（Basic Multilingual Plane,BMP）详细信息[基本多文种平面](http://baike.baidu.com/view/628163.htm) #### 分枝条件 `分枝条件`指的是有几种规则，如果满足其中任意一种规则都应该当成匹配，方法是用|把不同的规则分隔开。 ```js "aababxb".replace(/a|b/g,'') ``` ### 元字符元字符是一种特殊的字符，是用来修饰原子用的，不可以单独出现； #### 量词类 | 正则 | 说明| |------------|-----| |{m} |表示前面的原子必须出现m次| |{m,}|表示前面的原子最少出现m次| |{m,n}|m要小于n,表示前面出现的原子，最少m次，最多n次，包括m和n次| |? |等价{0,1}表示其前面的原子可以出现0次或1次，有只能有一次，要么没有| |+ |等价{1,}表示其前的原子可以出现1次或多次，不能没有最少要有一个| |* |等价{0,}表示其前的原子可以出现0次、1次、或多次| ##### 贪婪和非贪婪(懒惰)匹配当正则表达式中包含能接受重复的限定符时，通常的行为是匹配尽可能多的字符。 ```js "aababxb".match(/a.*b/);//贪婪匹配返回aababxb "aababxb".match(/a.*?b/);//懒惰匹配返回aab ``` 它将会匹配整个字符串。这被称为贪婪匹配。 | 代码/语法| 说明 | | ---------|-----------| |{n,}? |重复n次以上，但尽可能少重复| |{n,m}? |重复n到m次，但尽可能少重复| | ?? |重复0次或1次，但尽可能少重复| | +? |重复1次或更多次，但尽可能少重复| | *? |重复任意次，但尽可能少重复| #### 边界类（位置）位置可以理解为相邻字符之间的位置。咱们可以和空字符串进行类比, 字符的首尾、间隙都可以用空字符串进行连接。 ```js 'hello' === '' + 'h' + '' + 'e' + '' + 'l' + '' + 'l' + '' + 'o' + '' ``` ![](img/位置.jpg) | 符号 | 说明| |------------|-----| |^ |脱字符，有m时是行的开头，无m是字符串的开始| |$ |美元符，有m时是行的末尾，无m是字符串的结束| |\b |单词的边界，具体讲有三点规则：①\w和\W之间的位置 ②^与\w之间的位置 ③\w与$之间的位置| |\B |非单词的边界，与上面相反：①\w与\w之间的位置 ②\W与\W之间的位置 ③^与\W之间的位置 ④\W与$之间的位置| ```js var regex = '666root_cloud.com'.replace(/\b/g,'❤') ``` ![](img/边界.jpg) ```js var regex = '[[666root_cloud.com]]'.replace(/\B/g,'❤') ``` ![](img/非边界.jpg) ## 正则表达式应用 ### 创建正则表达式 ```js var reg = /xzy/i; //推荐 var reg = new RegExp('xzy', 'i'); //用于动态变量创建 var reg = new RegExp(/xzy/i); var reg = new RegExp(/xzy/i, 'i');//ES5不允许；ES6可以并且第二个参数指定的修饰符会覆盖前面的修饰符 var reg = eval("/xzy/i");//不建议 var reg = new Function("return /xzy/i")();//不建议 console.dir(reg) ``` ### RegExp实例属性 | 属性 | flags | 说明 | | -----------|------|-------| | lastIndex | | 下一次匹配开始的索引，初始值为0。可读写整型属性| | dotAll　　 |/s| 允许`.`匹配换行符, ES7| | flags 　　| | 返回正则表达式的修饰符, ES6| | global |/g| 全局搜索。匹配字符串中所有可能的字符，而不是仅匹配符合条件的第一项| | hasIndices|/d| 为匹配子串生成开头和结尾的索引，索引通过 RegExpArray 的 indices 数组获得| | ignoreCase|/i| 匹配文本的时候忽略大小写来进行搜索| | multiline |/m| 多行搜索，这意味着在包含多个行的字符串中使用^和$符号时，会匹配每行的开头和结尾，而不是默认的只匹配整个字符串的开头和结尾| | source 　　| | 正则表达式源码文本| | sticky 　　|/y| 粘性搜索（ES6）。每次从lastIndex所标识的起始位置开始匹配，如果匹配失败将更新lastIndex为0；如果匹配成功将更新lastIndex为相应值，下次继续从lastIndex匹配。这里的“粘性”想表达的是只有当匹配项是连续的、相“粘连”的，搜索才会从当前下标位置继续下去，否则lastIndex归0从头开始。当 y 和 g 标志被同时使用时会省略 g 标志| | unicode　　|/u| 开启Unicode功能。ES6| - lastIndex ```js var reg = /\d+/g var str = '123abc' console.log(reg.test(str)) // true console.log(reg.lastIndex) console.log(reg.test(str)) // false ``` - dotAll ```js console.log(`abc 123`.match(/.+/s)) ``` - global ```js console.log(`1a2b3c`.replace(/\d+/g,'*')) ``` - flags ```js var reg = new RegExp('a', 'sgdimyu') console.log(reg.flags);//dgimsuy ES6规范中规定了表达式的标识按照字符顺序输出，即dgimsuy ``` - hasIndices ```js var str = 'foo bar foo' var reg = new RegExp('foo', 'gd') console.log(reg.hasIndices) // true console.log(reg.exec(str).indices[0]) // Array [0, 3] console.log(reg.exec(str).indices[0]) // Array [8, 11] `

评论收藏

内容反馈