没有合适的资源?快使用搜索试试~ 我知道了~
在Python中使用HTMLParser解析HTML的教程
0 下载量 48 浏览量
2021-01-20
05:11:27
上传
评论
收藏 54KB PDF 举报
温馨提示
试读
1页
如果我们要编写一个搜索引擎,第一步是用爬虫把目标网站的页面抓下来,第二步就是解析该HTML页面,看看里面的内容到底是新闻、图片还是视频。 假设第一步已经完成了,第二步应该如何解析HTML呢? HTML本质上是XML的子集,但是HTML的语法没有XML那么严格,所以不能用标准的DOM或SAX来解析HTML。 好在Python提供了HTMLParser来非常方便地解析HTML,只需简单几行代码: from HTMLParser import HTMLParser from htmlentitydefs import name2codepoint class MyHTMLParser(HTMLPa
资源推荐
资源评论
资源评论
weixin_38595528
- 粉丝: 6
- 资源: 901
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功