没有合适的资源?快使用搜索试试~ 我知道了~
http-crawler:一个用于爬网网站的库
共36个文件
html:9个
jpg:6个
css:4个
需积分: 9 0 下载量 29 浏览量
2021-05-09
22:52:40
上传
评论
收藏 143KB ZIP 举报
温馨提示
http搜寻器 http-crawler是用于爬网网站的库。 它使用来说HTTP。 安装 用安装: $ pip install http-crawler 用法 http_crawler模块提供了一个生成器功能crawl 。 crawl使用URL进行调用,并产生的类的实例。 crawl将在给定URL处请求页面,并将从响应中提取所有URL。 然后,它将针对每个这些URL发出请求,并将重复该过程,直到它请求从原始URL的域上的页面链接到的每个URL。 它不会从任何具有与原始URL不同域的页面中提取或处理URL。 例如,这是您使用crawl在网站上查找和记录任何损坏的链接的方式: >>> from http_crawler import crawl >>> for rsp in crawl( ' http://www.example.com ' ): >>> if rsp.sta
资源推荐
资源详情
资源评论
收起资源包目录
http-crawler-master.zip (36个子文件)
http-crawler-master
setup.py 881B
.gitignore 1KB
src
http_crawler
__init__.py 2KB
.travis.yml 1KB
MANIFEST.in 39B
HISTORY.rst 925B
setup.cfg 142B
LICENSE.txt 1KB
README.rst 3KB
tests
cert.pem 3KB
one-page-site
index.html 103B
site
assets
tile-1.jpg 18KB
script.js 36B
styles-2.css 60B
image.jpg 26KB
tile-2.jpg 22KB
styles.css 418B
index.html 953B
pages
page-1
index.html 599B
page-3
index.html 599B
page-2
index.html 599B
test_http_crawler.py 6KB
external-site
assets
tile-1.jpg 18KB
script.js 36B
styles-2.css 60B
image.jpg 26KB
tile-2.jpg 22KB
styles.css 116B
index.html 581B
pages
page-1
index.html 599B
page-3
index.html 599B
page-2
index.html 599B
AUTHORS.txt 44B
.coveragerc 129B
requirements-dev.txt 28B
tox.ini 479B
共 36 条
- 1
资源评论
你就应该
- 粉丝: 43
- 资源: 4600
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功