没有合适的资源?快使用搜索试试~ 我知道了~
CCblast:用于从Common Crawl数据库提取纯文本和超链接的Python工具
共6个文件
py:3个
txt:1个
md:1个
需积分: 14 1 下载量 186 浏览量
2021-05-04
02:33:12
上传
评论 1
收藏 431KB ZIP 举报
温馨提示
[来源]( ) 介绍 大约18亿个网页的[Commoncrawl]( 原始数据存储在。特定URL的位置(即* .wikipedia.org)可通过可查询的API [cdx]访问。 -index-clinet]( )。 使用cdx-index-client,可以找到每个url,WARC,WET和WAT三种文件类型的位置。 * WARC文件,用于存储原始爬网数据* WAT文件,用于存储WARC中存储的数据的计算出的元数据,包括纯文本* WET文件,用于存储从WARC中存储的数据中提取的纯文本 为了下载,解析和清理commoncrawl数据,运行了四个m4 x xlarge的生产群集[CCBlast]( )。 CCBlast从[cdx-index-clinet]( )获取S3文件位置信息,并将相关的WAT和WET文件下载到本地计算机,解析数据以删除不必要的元数据,清除数据中有问题的字符
资源推荐
资源详情
资源评论
收起资源包目录
CCblast-master.zip (6个子文件)
CCblast-master
img
warc.png 431KB
CC_Blast_Parser.py 2KB
requirements.txt 118B
CC_Blast.py 12KB
README.md 2KB
cdx_index_client.py 10KB
共 6 条
- 1
资源评论
RosieLau
- 粉丝: 48
- 资源: 4582
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- (源码)基于Spring Boot和Vue的后台管理系统.zip
- 用于将 Power BI 嵌入到您的应用中的 JavaScript 库 查看文档网站和 Wiki 了解更多信息 .zip
- (源码)基于Arduino、Python和Web技术的太阳能监控数据管理系统.zip
- (源码)基于Arduino的CAN总线传感器与执行器通信系统.zip
- (源码)基于C++的智能电力系统通信协议实现.zip
- 用于 Java 的 JSON-RPC.zip
- 用 JavaScript 重新实现计算机科学.zip
- (源码)基于PythonOpenCVYOLOv5DeepSort的猕猴桃自动计数系统.zip
- 用 JavaScript 编写的贪吃蛇游戏 .zip
- (源码)基于ASP.NET Core的美术课程管理系统.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功