没有合适的资源?快使用搜索试试~ 我知道了~
cc-warc-examples:用于Java + HadoopCommonCrawl WARCWETWAT示例和处理代码
共15个文件
java:10个
license:1个
jar:1个
需积分: 9 0 下载量 120 浏览量
2021-05-13
14:05:54
上传
评论
收藏 31.02MB ZIP 举报
温馨提示
常见的抓取WARC示例 该存储库既包含用于处理Hadoop MapReduce作业中的WARC文件的包装器,也包含使您入门的Hadoop示例。 有三个用于Hadoop处理的示例: [WARC文件]使用原始HTTP响应HTML标记频率计数器 [WAT文件]使用响应元数据的服务器响应分析 [WET文件]使用提取的文本的经典单词计数示例 所有这三个文件最初都假设文件存储在本地,但可以对其进行简单地修改以将它们从Common Crawl的Amazon S3存储桶中拉出。 要获取文件,可以使用或类似文件。 s3cmd get s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2013-48/segments/1386163035819/warc/CC-MAIN-20131204131715-00000-ip-10-33-133-15
资源推荐
资源详情
资源评论
收起资源包目录
cc-warc-examples-master.zip (15个子文件)
cc-warc-examples-master
src
org
commoncrawl
examples
mapreduce
WATServerType.java 3KB
WordCounterMap.java 2KB
ServerTypeMap.java 2KB
TagCounterMap.java 3KB
WETWordCount.java 3KB
WARCTagCounter.java 3KB
S3ReaderTest.java 2KB
WARCReaderTest.java 2KB
warc
WARCFileInputFormat.java 1KB
WARCFileRecordReader.java 2KB
lib
webarchive-commons-jar-with-dependencies.jar 34.38MB
LICENSE 1KB
README.md 934B
pom.xml 6KB
.gitignore 20B
共 15 条
- 1
资源评论
卡卡乐乐
- 粉丝: 31
- 资源: 4680
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功