没有合适的资源?快使用搜索试试~ 我知道了~
warc-mapreduce:对 Hadoop 的 mapreduce api 的 warc 和湿支持
共11个文件
clj:5个
java:4个
md:2个
需积分: 14 0 下载量 112 浏览量
2021-06-16
13:10:50
上传
评论
收藏 16KB ZIP 举报
温馨提示
warc-mapreduce 用于 hadoop 新 api (mapreduce) 的 warc 工作版本,基于 lemur 项目,有一些修复(在 java 目录中) 还有一个将 warc 与 hadoop-clojure 结合使用的示例。 要运行该示例,请从 common-crawl 获取一个文件(2013 年的第一次爬网 ): s3cmd get s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2013-20/segments/1368710313659/wet/CC-MAIN-20130516131833-00097-ip-10-60-113-184.ec2.internal.warc.wet.gz 以及 2013 年冬季抓取的文件示例 ( ),不要忘记更改 example.clj 测试中的文件名: s3
资源推荐
资源详情
资源评论
收起资源包目录
warc-mapreduce-master.zip (11个子文件)
warc-mapreduce-master
src
warc_mapreduce
example.clj 3KB
core.clj 101B
warc.clj 2KB
doc
intro.md 132B
java
edu
cmu
lemurproject
WritableWarcRecord.java 3KB
WarcRecord.java 17KB
WarcFileInputFormat.java 3KB
WarcFileRecordReader.java 7KB
README.md 907B
test
warc_mapreduce
core_test.clj 144B
project.clj 501B
共 11 条
- 1
资源评论
weixin_42156940
- 粉丝: 22
- 资源: 4629
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功