正则表达式语法与常用模式
正则表达式(Regular Expression)是一种强大的字符串匹配模式,广泛应用于数据提取、文本处理、表单验证等领域。下面是常用的正则表达式语法和模式:
特殊字符
在正则表达式中,有一些特殊字符需要特殊处理。这些字符包括:
* `\`:标记下一个字符是特殊字符或文字。
* `^`:匹配输入的开头。
* `$`:匹配输入的末尾。
* `*`:匹配前面的子表达式零或多次。
* `+`:匹配前面的子表达式一次或多次。
* `?`:匹配前一个字符零或一次。
* `.`:匹配除换行字符外的任何单个字符。
* `(`:开始一个子表达式,匹配 pattern 并记住该匹配。
常用模式
下面是一些常用的正则表达式模式:
* 提取信息中的网络链接:`(h|H)(r|R)(e|E)(f|F) *= *('|")?(\w|\\|\/|\.)+('|"| *|>)?`
* 提取信息中的邮件地址:`\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*`
* 提取信息中的图片链接:`(s|S)(r|R)(c|C) *= *('|")?(\w|\\|\/|\.)+('|"| *|>)?`
* 提取信息中的 IP 地址:`(\d+)\.(\d+)\.(\d+)\.(\d+)`
* 提取信息中的中国手机号码:`(86)*0*13\d{9}`
* 提取信息中的中国固定电话号码:`(\(\d{3,4}\)|\d{3,4}-|\s)?\d{8}`
* 提取信息中的中国电话号码(包括移动和固定电话):`(\(\d{3,4}\)|\d{3,4}-|\s)?\d{7,14}`
* 提取信息中的中国邮政编码:`[1-9]{1}(\d+){5}`
* 提取信息中的中国身份证号码:`\d{18}|\d{15}`
* 提取信息中的整数:`\d+`
* 提取信息中的浮点数(即小数):`(-?\d*)\.?\d+`
* 提取信息中的任何数字:`^\-{0,1}\d+\.?\d*|\.\d+`
* 提取信息中的中文字符串:`[\u4e00-\u9fa5]*`
* 提取信息中的双字节字符串(汉字):`[^\x00-\xff]*`
* 提取信息中的英文字符串:`\w*`
这些模式可以帮助我们快速提取信息中的有用数据,提高数据处理效率和准确性。