没有合适的资源?快使用搜索试试~ 我知道了~
cocrawler:CoCrawler是使用现代工具和并发性构建的多功能Web搜寻器
共91个文件
py:61个
yml:8个
in:3个
需积分: 9 0 下载量 74 浏览量
2021-05-01
14:10:21
上传
评论
收藏 129KB ZIP 举报
温馨提示
共同爬虫 CoCrawler是使用现代工具和并发性构建的多功能Web搜寻器。 爬网可能很容易,也可能很困难,具体取决于细节。 像Nutch和Heritrix这样的成熟的爬虫在许多情况下都可以很好地工作,而在其他情况下则不够。 一些最苛刻的爬网情况包括整个网络的开放式爬网。 该项目的目的是创建一个具有可插拔模块的模块化搜寻器,能够很好地应对各种搜寻任务。 搜寻器的核心是使用协程以Python 3.5+编写的。 地位 CoCrawler已预发布,正在进行重大重组。 目前,它在4核计算机上的抓取速度约为170兆位/ 170页/秒。 截屏: 正在安装 我们建议您使用pyenv / virtualenv将cocrawler使用的python可执行文件和软件包与其他所有文件分开。 您可以使用“ pip install cocrawler”从pypi安装cocrawler。 对于更新鲜的版本
资源推荐
资源详情
资源评论
收起资源包目录
cocrawler-master.zip (91个子文件)
cocrawler-master
.travis.yml 949B
data
top-1k.txt 12KB
html-parsing-test.html 8KB
tests
test-wide.yml 1000B
.cocrawler-config.yml 146B
test-scheduler.yml 1KB
test-failures.yml 783B
test-wide-save.yml 48B
test.sh 4KB
unit
test_reppy.py 2KB
test_facet.py 12KB
test_accumulator.py 2KB
test_dns.py 786B
test_cocrawler.py 1KB
test_timebin.py 967B
test_parse.py 7KB
test_useragent.py 2KB
test_config.py 896B
test_surt.py 9KB
test_lxml.py 1KB
test_seeds.py 309B
test_robots.py 2KB
test_stats.py 3KB
test_datalayer.py 2KB
test_urls.py 13KB
test_burner.py 361B
test_url_allowed.py 3KB
test_topk.py 2KB
test_00version.py 696B
test-deep.yml 1KB
test_burner.html 178B
test-wide.hosts 587B
TEST-TODO 231B
warc
CC-TEST-01-FOO-00002-hostname.warc.in 2KB
CC-TEST-01-00001-hostname.warc.gz.in 1KB
test.sh 1KB
test-warc.py 2KB
warc-diff.py 976B
CC-TEST-01-FOO-00001-hostname.warc.in 2KB
mock-webserver.py 5KB
LICENSE 11KB
azure-pipelines.yml 2KB
cocrawler
geoip.py 4KB
webserver.py 2KB
.coveragerc 92B
dashboard.json 2KB
timebin.py 2KB
warc.py 10KB
.pylintrc 395B
datalayer.py 2KB
robots.py 13KB
content.py 5KB
surt.py 8KB
stats.py 11KB
post_fetch.py 10KB
timer.py 6KB
fetcher.py 10KB
dns.py 6KB
pdeathsig.py 307B
__init__.py 22KB
url_allowed.py 4KB
parse.py 14KB
topk.py 3KB
scheduler.py 11KB
burner.py 4KB
memory.py 5KB
accumulator.py 2KB
config.py 6KB
seeds.py 6KB
urls.py 15KB
useragent.py 2KB
facet.py 10KB
requirements.txt 889B
examples
USECASES 1KB
setup.py 2KB
.gitignore 78B
optional-requirements.txt 132B
Makefile 2KB
README.md 2KB
scripts
dump-soup.py 2KB
run_burner_bench.py 2KB
parse-html.py 422B
bench_dns.py 4KB
run_parsers.py 3KB
bench_burner.py 3KB
crawl.py 4KB
run_burner.py 2KB
aiohttp-fetch.py 2KB
cocrawler-savefile-dump.py 294B
.editorconfig 256B
.flake8 29B
共 91 条
- 1
资源评论
摔了个呆萌
- 粉丝: 28
- 资源: 4676
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功