没有合适的资源?快使用搜索试试~ 我知道了~
query_wet_news:浏览常见的爬取档案新闻条目
共2000个文件
result:12895个
vocab:86个
sh:14个
需积分: 9 0 下载量 140 浏览量
2021-07-03
17:15:04
上传
评论
收藏 167.38MB ZIP 举报
温馨提示
要求 要求是 Hanzo 的 WARC 工具和 s3cmd 一个用 Python 编写的用于 BASH 的命令行工具,用于我们的 AMI(debian wheezy,通过执行以下操作来处理: ./Bootstrap.sh 考虑通过 EMR 服务使用它 这将通过以下方式安装 s3cmd: sudo apt-get install s3cmd s3cmd --configure 您必须通过自己的方法处理您的 aws 信息,才能使用您的 aws 账户下载存储桶。 背景 Common crawl corpus ( ) 是一个非营利性的网络“快照”数字档案,托管为。 query_wet_news 浏览常见的爬取档案新闻条目 并行化策略 目前使用 BASH fork 对 Map-Reduce 原理进行原型设计。 例如: ./CycleThroughFilterShuf.sh & ./Cyc
资源推荐
资源详情
资源评论
收起资源包目录
query_wet_news:浏览常见的爬取档案新闻条目 (2000个子文件)
2014_WetDump 8.61MB
2014_WetDump 8.61MB
.gitignore 31B
.gitignore 21B
LICENSE 1KB
README.md 2KB
ParallelBatch.mm 1KB
NewsList 1KB
NewsLists 2KB
NewsLists 2KB
CommonCrawlCorpus.png 71KB
ParallelBatch.png 59KB
QueryList 31B
server.R 2KB
ui.R 2KB
helper.R 2KB
ShowMe.R 874B
RunInParallel.R 135B
dtm.rda 86KB
files.rda 45KB
.RData 65.56MB
.RData 3KB
CC-MAIN-20140305060715-00032-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 297KB
CC-MAIN-20140305060715-00032-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 297KB
CC-MAIN-20140305060715-00067-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 274KB
CC-MAIN-20140305060715-00067-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 274KB
CC-MAIN-20140305060715-00055-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 265KB
CC-MAIN-20140305060715-00055-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 265KB
CC-MAIN-20140305060716-00049-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 247KB
CC-MAIN-20140305060716-00049-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 247KB
CC-MAIN-20140305060715-00092-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 219KB
CC-MAIN-20140305060715-00092-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 219KB
CC-MAIN-20140305060716-00036-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 212KB
CC-MAIN-20140305060716-00036-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 212KB
CC-MAIN-20140305060715-00005-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 210KB
CC-MAIN-20140305060715-00005-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 210KB
CC-MAIN-20140305060716-00000-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 200KB
CC-MAIN-20140305060716-00000-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 200KB
CC-MAIN-20140305060715-00039-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 197KB
CC-MAIN-20140305060715-00039-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 197KB
CC-MAIN-20140305060716-00043-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 187KB
CC-MAIN-20140305060716-00043-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 187KB
CC-MAIN-20140305060716-00078-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 186KB
CC-MAIN-20140305060716-00078-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 186KB
CC-MAIN-20140305060715-00088-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 185KB
CC-MAIN-20140305060715-00088-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 185KB
CC-MAIN-20140305060716-00092-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 182KB
CC-MAIN-20140305060716-00092-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 182KB
CC-MAIN-20140305060715-00079-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 181KB
CC-MAIN-20140305060715-00079-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 181KB
CC-MAIN-20140305060715-00089-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 181KB
CC-MAIN-20140305060715-00089-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 181KB
CC-MAIN-20140305060715-00061-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 174KB
CC-MAIN-20140305060715-00061-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 174KB
CC-MAIN-20140305060715-00023-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 174KB
CC-MAIN-20140305060715-00023-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 174KB
CC-MAIN-20140305060716-00069-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 173KB
CC-MAIN-20140305060716-00069-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 173KB
CC-MAIN-20140305060715-00076-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 173KB
CC-MAIN-20140305060715-00076-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 173KB
CC-MAIN-20140305060716-00030-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 171KB
CC-MAIN-20140305060716-00030-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 171KB
CC-MAIN-20140305060715-00084-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 171KB
CC-MAIN-20140305060715-00084-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 171KB
CC-MAIN-20140305060715-00063-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 170KB
CC-MAIN-20140305060715-00063-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 170KB
CC-MAIN-20140305060716-00045-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 168KB
CC-MAIN-20140305060716-00045-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 168KB
CC-MAIN-20140305060715-00083-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 166KB
CC-MAIN-20140305060715-00083-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 166KB
CC-MAIN-20140305060715-00009-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 166KB
CC-MAIN-20140305060715-00009-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 166KB
CC-MAIN-20140305060715-00052-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 165KB
CC-MAIN-20140305060715-00052-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 165KB
CC-MAIN-20140305060715-00071-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 164KB
CC-MAIN-20140305060715-00071-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 164KB
CC-MAIN-20140305060715-00043-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 164KB
CC-MAIN-20140305060715-00043-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 164KB
CC-MAIN-20140305060716-00041-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 164KB
CC-MAIN-20140305060716-00041-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 164KB
CC-MAIN-20140305060715-00090-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 163KB
CC-MAIN-20140305060715-00090-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 163KB
CC-MAIN-20140305060715-00099-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 161KB
CC-MAIN-20140305060715-00099-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 161KB
CC-MAIN-20140305060716-00003-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 159KB
CC-MAIN-20140305060716-00003-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 159KB
CC-MAIN-20140305060716-00009-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 158KB
CC-MAIN-20140305060716-00009-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 158KB
CC-MAIN-20140305060716-00068-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 157KB
CC-MAIN-20140305060716-00068-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 157KB
CC-MAIN-20140305060715-00054-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 155KB
CC-MAIN-20140305060715-00054-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 155KB
CC-MAIN-20140305060715-00001-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 154KB
CC-MAIN-20140305060715-00001-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 154KB
CC-MAIN-20140305060715-00075-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 154KB
CC-MAIN-20140305060715-00075-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 154KB
CC-MAIN-20140305060716-00070-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 154KB
CC-MAIN-20140305060716-00070-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 154KB
CC-MAIN-20140305060716-00097-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 153KB
CC-MAIN-20140305060716-00097-ip-10-183-142-35.ec2.internal.warc.wet.gz.result 153KB
共 2000 条
- 1
- 2
- 3
- 4
- 5
- 6
- 20
资源评论
小旗旗
- 粉丝: 24
- 资源: 4557
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功