没有合适的资源？快使用搜索试试~ 我知道了~

文库首页开发技术其它http-crawler:一个用于爬网网站的库

http-crawler:一个用于爬网网站的库

共36个文件

html：9个

jpg：6个

css：4个

Python

需积分: 9 0 下载量 29 浏览量 2021-05-09 22:52:40 上传评论收藏 143KB ZIP 举报

温馨提示

http搜寻器 http-crawler是用于爬网网站的库。它使用来说HTTP。安装用安装： $ pip install http-crawler 用法 http_crawler模块提供了一个生成器功能crawl 。 crawl使用URL进行调用，并产生的类的实例。 crawl将在给定URL处请求页面，并将从响应中提取所有URL。然后，它将针对每个这些URL发出请求，并将重复该过程，直到它请求从原始URL的域上的页面链接到的每个URL。它不会从任何具有与原始URL不同域的页面中提取或处理URL。例如，这是您使用crawl在网站上查找和记录任何损坏的链接的方式： >>> from http_crawler import crawl >>> for rsp in crawl( ' http://www.example.com ' ): >>> if rsp.sta

资源推荐

资源详情

资源评论

收起资源包目录

http-crawler-master.zip （36个子文件）

http-crawler-master

setup.py 881B

.gitignore 1KB

src

http_crawler

__init__.py 2KB

.travis.yml 1KB

MANIFEST.in 39B

HISTORY.rst 925B

setup.cfg 142B

LICENSE.txt 1KB

README.rst 3KB

tests

cert.pem 3KB

one-page-site

index.html 103B

site

assets

tile-1.jpg 18KB

script.js 36B

styles-2.css 60B

image.jpg 26KB

tile-2.jpg 22KB

styles.css 418B

index.html 953B

pages

page-1

index.html 599B

page-3

index.html 599B

page-2

index.html 599B

test_http_crawler.py 6KB

external-site

assets

tile-1.jpg 18KB

script.js 36B

styles-2.css 60B

image.jpg 26KB

tile-2.jpg 22KB

styles.css 116B

index.html 581B

pages

page-1

index.html 599B

page-3

index.html 599B

page-2

index.html 599B

AUTHORS.txt 44B

.coveragerc 129B

requirements-dev.txt 28B

tox.ini 479B

共 36 条

评论收藏

内容反馈

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

你就应该

粉丝: 43
资源: 4600

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

http-crawler:一个用于爬网网站的库

imdb-crawler-api:NPM库，用于爬网IMDb

meizhi-crawler:一个用于 http 的网络爬虫

crawler:使用cheerio爬网网站

qna-crawler:网站爬网程序，用于为Microsoft QnA Maker服务准备的问题和答案

crawler:爬网新浪微博和大中网站的爬虫，这是我的毕业设计

newspaper-crawler:基于爬网的爬虫，爬报纸

roadburn-redux-crawler:Web爬网程序，用于从Roadburn Redux获取所有视频URL（2021）

Java-Web-Crawler:一个简单的Java Web爬网程序，用于爬网根链接并将结果存储在MySQL数据库中

pika-web-crawler-test：用于通过快照比较进行Web测试的Web爬网程序测试脚本

crawler_links_website:对所有链接网站使用Scrapy-Python爬网程序

crawler.js:爬取github用户的registry，用于http

http-status-check：用于爬网网站并检查HTTP状态代码的CLI工具

lesa-crawler:用于LESA的基于Scrapy的Web爬网程序

crunchbase-crawler:一个用于提取 Crunchbase 信息的 python 脚本

webmotors-br-simple-crawler:用于捕获品牌模型的简单爬网程序WebMotors网站的变体

wildsearch-crawler:一种用于收集Wildberry和其他俄罗斯市场部分中的部分，产品和产品位置数据的工具

ctf-writeup-crawler:CTF撰写的检索器

Web-scraper-crawler-python:用于自动下载字体文件的python网络爬虫

Akka-Web-Crawler:基于Akka Cluster的Web搜寻器的示例

crx-crawler-for-crxdoc:一个偏爱文档类网站的爬虫扩展

codeigniter_crawler:用于CodeIgniter框架的网站搜寻器

rust-crawler:Rust中的一个简单的网站爬虫

collect.unknown.sites:一个微小的node.js脚本，用于爬网收集鲜为人知的网站

newspaper-crawler-scripts:爬网报纸网站的脚本集

browsertrix-crawler:在单个Docker容器中运行基于高保真度的基于浏览器的搜寻器

unsplash-crawler:抓取所有图片以防飞溅

python-testing-crawler：用于对Web应用程序进行自动功能测试的搜寻器

bsbang-crawler:Alpha项目，用于爬行生物化学过程JSON-LD

domain-discovery-crawler:广泛的搜寻器，用于域发现

最新资源