没有合适的资源?快使用搜索试试~ 我知道了~
comcrawl:用于下载常见抓取数据的python实用程序
共36个文件
py:21个
sh:4个
yml:2个
需积分: 50 4 下载量 57 浏览量
2021-05-10
05:18:07
上传
评论
收藏 44KB ZIP 举报
温馨提示
cra草 comcrawl是一个python软件包,用于轻松地从查询和下载页面。 介绍 通过阅读这篇我受到鼓舞而变得草。 注意:我这样做是出于个人项目和娱乐目的。 因此,此软件包旨在用于中小型项目,因为它并未针对处理千兆字节或兆字节的数据进行优化。 在这种情况下,您可能想签出或 。 什么是普通抓取? Common Crawl项目是“任何人都可以访问和分析的Web爬网数据的开放存储库” 。 它包含数十亿个网页,通常用于NLP项目以收集大量文本数据。 Common Crawl提供了一个,您可以使用该在其爬网数据中搜索某些URL。 每个搜索结果均包含指向其用于下载页面的特定位置的链接和字节偏移。 爬虫提供了什么? comcrawl提供了可在python程序中使用的简单API接口,从而简化了从Common Crawl搜索和下载的过程。 安装 在PyPI上可以使用comcrawl 。 通
资源推荐
资源详情
资源评论
收起资源包目录
comcrawl-master.zip (36个子文件)
comcrawl-master
poetry.lock 43KB
.gitignore 2KB
pyproject.toml 1KB
LICENSE 1KB
CHANGELOG.md 510B
setup.cfg 125B
comcrawl
core
__init__.py 96B
index_client.py 2KB
__init__.py 204B
types.py 214B
utils
__init__.py 261B
multithreading.py 2KB
download.py 2KB
initialization.py 623B
search.py 2KB
.github
workflows
ci.yml 2KB
cd.yml 772B
scripts
publish-test.sh 117B
test.sh 88B
format.sh 95B
lint.sh 618B
README.md 4KB
tests
snapshots
__init__.py 0B
snap_test_comcrawl.py 27KB
test_comcrawl.py 655B
__init__.py 0B
comcrawl
core
test_index_client.py 316B
utils
snapshots
__init__.py 0B
snap_test_download.py 133KB
snap_test_search.py 5KB
test_download.py 4KB
test_multithreading.py 634B
test_search.py 982B
test_initialization.py 187B
.pylintrc 2KB
.gitattributes 66B
共 36 条
- 1
资源评论
dilikong
- 粉丝: 29
- 资源: 4597
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功