没有合适的资源?快使用搜索试试~ 我知道了~
常用Python爬虫库汇总.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 106 浏览量
2023-03-28
21:44:28
上传
评论
收藏 18KB DOCX 举报
温馨提示
试读
8页
。
资源推荐
资源详情
资源评论
常用 Python 爬虫库汇总
Python 爬虫,全称 Python 网络爬虫,是一种按照一定的规则,自动地抓取
万维网信息的程序或脚本,主要用于抓取证券交易数据、天气数据、网站用户数
据和图片数据等,Python 为支持网络爬虫正常功能实现,内置了大量的库,主
要有以下类型:
一、Python 爬虫网络库
Python 爬虫网络库主要包括:urllib、requests、grab、pycurl、urllib3、
httplib2、RoboBrowser 、MechanicalSoup、mechanize、socket、Unirest for
Python、hyper、PySocks、treq 以及 aiohttp 等。
二、Python 网络爬虫框架
Python 网络爬虫框架主要包括:grab、scrapy、pyspider、cola、portia、
restkit 以及 demiurge 等。
三、HTML/XML 解析器
lxml:C 语言编写高效 HTML/ XML 处理库,支持 XPath;
cssselect:解析 DOM 树和 CSS 选择器;
pyquery:解析 DOM 树和 jQuery 选择器;
BeautifulSoup:低效 HTML/ XML 处理库,纯 Python 实现;
html5lib:根据 WHATWG 规范生成 HTML/ XML 文档的 DOM,该规范被用在现
在所有的浏览器上;
feedparser:解析 RSS/ATOM feeds;
MarkupSafe:为 XML/HTML/XHTML 提供了安全转义的字符串;
1 / 8
资源评论
คิดถึง643
- 粉丝: 3882
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功