python用match()函数爬数据方法详解资源-CSDN文库

100 浏览量 2020-12-31 12:38:34 上传评论收藏 1.82MB PDF 举报

资源推荐

资源详情

资源评论

python用用match()函数爬数据方法详解函数爬数据方法详解

match()函数的使用。以及从文本中提取数据的方法。在学习re模块的相关函数前应了解正则表达式的特殊字符

准备一个要爬取的文本文档：

直接从某个网页拷贝一份代码，粘贴在一个txt文件里，以供学习。

方法很简单，比如打开百度视频的热门电影网页，右键点击查看源代码，然后复制，粘贴到一个txt文件里，保存到工作目录下。

有4000多行。

re.match(pattern, string, flags=0)

①pattern，是正则表达式。string，被检验的字符串。

②flags是可选参数，此标记是用来对patten的补充。例如：re.S，可以让正则表达式中的点匹配换行符。(如图片中，可以看帮助文档，查看

有哪些标记）

③ match()函数由左向右检验string，若匹配到正则表达式，返回一个匹配对象，否则就返回None.

④re.match() 匹配字符串的开始位置，而不匹配每行开始。

—-所以才将网页的每行放入列表，以供match函数对每行操作。

比如要在文档中，提取电影的网址，和电影名。

①复制那行文本作为表达式，

②将要提取的网址和和电影名替换为(.*)，这只是暂时的，可以在接下来的代码中调整。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余4页未读，立即下载

内容反馈

weixin_38710557

粉丝: 2
资源: 937

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip