【免费】Python爬虫知识点梳理_初中python知识点资源-CSDN文库

共4个文件

docx：3个

txt：1个

需积分: 0 174 浏览量 2023-04-23 20:37:49 上传评论 1 收藏 297KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

【python爬虫】Python爬虫知识点梳理.zip （4个子文件）

HTML入门教程.docx 19KB

Python正则表达式指南.docx 275KB

Python爬虫知识点梳理.txt 22B

Python爬虫知识点梳理.docx 14KB

1. 正则表达式基础

1.1. 简单介绍

正则表达式并不是 Python 的一部分。正则表达式是用于处理字符串的强大工具，拥有自己独特的语法以

及一个独立的处理引擎，效率上可能不如 str 自带的方法，但功能十分强大。得益于这一点，在提供了正

则表达式的语言里，正则表达式的语法都是一样的，区别只在于不同的编程语言实现支持的语法数量不同；

但不用担心，不被支持的语法通常是不常用的部分。如果已经在其他语言里使用过正则表达式，只需要简

单看一看就可以上手了。

下图展示了使用正则表达式进行匹配的流程：

正则表达式的大致匹配过程是：依次拿出表达式和文本中的字符比较，如果每一个字符都能匹配，则匹配

成功；一旦有匹配不成功的字符则匹配失败。如果表达式中有量词或边界，这个过程会稍微有一些不同，

但也是很好理解的，看下图中的示例以及自己多使用几次就能明白。

下图列出了 Python 支持的正则表达式元字符和语法：

1.2. 数量词的贪婪模式与非贪婪模式

正则表达式通常用于在文本中查找匹配的字符串。Python 里数量词默认是贪婪的（在少数语言里也可能是

默认非贪婪），总是尝试匹配尽可能多的字符；非贪婪的则相反，总是尝试匹配尽可能少的字符。例如：

正则表达式"ab*"如果用于查找"abbbc"，将找到"abbb"。而如果使用非贪婪的数量词"ab*?"，将找到"a"。

1.3. 反斜杠的困扰

与大多数编程语言相同，正则表达式里使用"\"作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配

文本中的字符"\"，那么使用编程语言表示的正则表达式里将需要 4 个反斜杠"\\\\"：前两个和后两个分别

用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python 里的

原生字符串很好地解决了这个问题，这个例子中的正则表达式可以使用 r"\\"表示。同样，匹配一个数字的

"\\d"可以写成 r"\d"。有了原生字符串，你再也不用担心是不是漏写了反斜杠，写出来的表达式也更直观。

1.4. 匹配模式

正则表达式提供了一些可用的匹配模式，比如忽略大小写、多行匹配等，这部分内容将在 Pattern 类的工

厂方法 re.compile(pattern[, flags])中一起介绍。

2. re 模块

2.1. 开始使用 re

Python 通过 re 模块提供对正则表达式的支持。使用 re 的一般步骤是先将正则表达式的字符串形式编译为

Pattern 实例，然后使用 Pattern 实例处理文本并获得匹配结果（一个 Match 实例），最后使用 Match

实例获得信息，进行其他的操作。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

# encoding: UTF-8

import re

# 将正则表达式编译成

Pattern 对象

pattern

= re.compile(r'hello')

# 使用 Pattern 匹配文本，获

得匹配结果，无法匹配时将返

回 None

match

= pattern.match('hello

world!')

内容反馈

残余的记忆

粉丝: 9
资源: 323

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip