没有合适的资源?快使用搜索试试~ 我知道了~
Apache Nutch v2.3.1
共1898个文件
html:1106个
java:442个
xml:158个
需积分: 9 0 下载量 118 浏览量
2019-11-09
04:56:02
上传
评论
收藏 7.24MB ZIP 举报
温馨提示
Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。在Nutch的进化过程中,产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。如今这四个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。大数据这个术语最早的引用可追溯到Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。现在,大数据的含义已经被极大地发展了,业界将大数据的特性归纳为4个“V”。Vo
资源推荐
资源详情
资源评论
收起资源包目录
Apache Nutch v2.3.1 (1898个子文件)
webpage.avsc 11KB
host.avsc 1KB
command 348B
elasticsearch.conf 848B
crawl 5KB
.data.crc 540B
.part-00000.crc 480B
.data.crc 408B
.data.crc 304B
.data.crc 208B
.data.crc 196B
.data.crc 52B
.part-00000.crc 52B
.data.crc 24B
.data.crc 24B
.part-00000.crc 20B
.data.crc 20B
.index.crc 12B
.index.crc 12B
.index.crc 12B
.index.crc 12B
.index.crc 12B
.part-00000.crc 12B
.index.crc 12B
.data.crc 12B
.index.crc 12B
.index.crc 12B
.index.crc 12B
.segments.crc 12B
.index.crc 12B
.index.done.crc 8B
stylesheet.css 11KB
nutch-style.css 3KB
data 66KB
data 50KB
data 37KB
data 25KB
data 23KB
data 5KB
data 2KB
data 2KB
data 1KB
data 139B
deletable 4B
deletable 4B
word97.doc 8KB
index.done 0B
plugin.dtd 7KB
plugin.dtd 7KB
parse-plugins.dtd 347B
_0.f0 19B
_j.f0 19B
_0.f1 19B
_j.f1 19B
_0.f2 19B
_j.f2 19B
_0.f3 19B
_j.f3 19B
_0.f4 19B
_j.f4 19B
_0.f5 19B
_j.f5 19B
_0.fdt 2KB
_j.fdt 2KB
_0.fdx 152B
_j.fdx 152B
_0.fnm 66B
_j.fnm 66B
_0.frq 8KB
_j.frq 8KB
titlebar.gif 10KB
nutch_logo_tm.gif 3KB
background.gif 2KB
titlebar_end.gif 849B
tab.gif 291B
说明.htm 4KB
index-all.html 1.06MB
WebPage.html 177KB
overview-tree.html 127KB
constant-values.html 125KB
WebPage.Tombstone.html 123KB
NutchJob.html 114KB
WebPage.html 109KB
WebPage.Builder.html 91KB
Bytes.html 88KB
WebPage.Field.html 80KB
DOMBuilder.html 73KB
Pluggable.html 67KB
NutchDocument.html 66KB
NutchJobConf.html 62KB
allclasses-frame.html 56KB
package-use.html 53KB
serialized-form.html 49KB
allclasses-noframe.html 49KB
FieldPluggable.html 48KB
package-use.html 48KB
StorageUtils.html 43KB
Nutch.html 43KB
HttpBase.html 42KB
Parse.html 41KB
共 1898 条
- 1
- 2
- 3
- 4
- 5
- 6
- 19
资源评论
weixin_38744153
- 粉丝: 347
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功