没有合适的资源?快使用搜索试试~ 我知道了~
nutch ,爬虫
共827个文件
html:823个
gif:1个
css:1个
需积分: 14 8 下载量 143 浏览量
2016-09-21
13:37:50
上传
评论
收藏 1.69MB RAR 举报
温馨提示
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。 在Nutch的进化过程中,产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。如今这四个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。
资源推荐
资源详情
资源评论
收起资源包目录
nutch ,爬虫 (827个子文件)
stylesheet.css 1KB
plugin.dtd 7KB
inherit.gif 57B
index-all.html 719KB
WebPage.html 157KB
constant-values.html 129KB
Bytes.html 87KB
overview-tree.html 79KB
DOMBuilder.html 73KB
WebPage.Field.html 71KB
Pluggable.html 69KB
NutchDocument.html 62KB
WebPage.html 56KB
FieldPluggable.html 53KB
package-use.html 53KB
Nutch.html 44KB
allclasses-frame.html 42KB
package-use.html 42KB
Parse.html 41KB
Client.html 40KB
HttpBase.html 39KB
GeneratorJob.html 38KB
Metadata.html 37KB
allclasses-noframe.html 37KB
ScoringFilterException.html 35KB
AbstractFetchSchedule.html 34KB
Host.html 34KB
PluginDescriptor.html 34KB
URLUtil.html 33KB
StorageUtils.html 33KB
SpellCheckedMetadata.html 33KB
LinkAnalysisScoringFilter.html 33KB
TLDScoringFilter.html 33KB
Subcollection.html 32KB
ScoringFilters.html 31KB
OPICScoringFilter.html 30KB
WebPage.Field.html 30KB
TikaConfig.html 30KB
package-use.html 30KB
IndexingException.html 30KB
SolrDeleteDuplicates.html 30KB
Content.html 30KB
FetcherJob.html 29KB
ProtocolStatusUtils.html 29KB
ParserJob.html 27KB
RegexURLFilterBase.html 27KB
NutchDocument.html 27KB
StringUtil.html 27KB
FetchSchedule.html 27KB
DublinCore.html 27KB
WebTableReader.html 27KB
Ftp.html 26KB
URLNormalizers.html 26KB
ScoringFilter.html 25KB
JSParseFilter.html 25KB
InjectorJob.html 25KB
ArcRecordReader.html 25KB
DummySSLProtocolSocketFactory.html 25KB
ElasticIndexerJob.html 25KB
Http.html 24KB
MetaWrapper.html 24KB
Extension.html 24KB
HTMLMetaTags.html 24KB
Crawler.html 24KB
RegexURLNormalizer.html 24KB
RobotRulesParser.html 24KB
SolrIndexerJob.html 24KB
CollectionManager.html 24KB
HTMLMetaTags.html 24KB
NutchTool.html 24KB
SuffixURLFilter.html 24KB
package-use.html 24KB
EncodingDetector.html 23KB
IndexerJob.IndexerMapper.html 23KB
UrlWithScore.html 23KB
RAMJobManager.html 23KB
File.html 23KB
Mark.html 23KB
serialized-form.html 23KB
AdaptiveFetchSchedule.html 23KB
Http.html 23KB
AutomatonURLFilter.html 23KB
DOMContentUtils.html 23KB
ParserFactory.html 23KB
HttpBasicAuthentication.html 23KB
ProtocolException.html 23KB
RegexURLFilter.html 23KB
SolrDeleteDuplicates.SolrRecordReader.html 23KB
Metadata.html 23KB
PluginRepository.html 23KB
ProtocolStatus.html 22KB
FeedParser.html 22KB
DomainSuffix.Status.html 22KB
ProtocolStatus.html 22KB
TrieStringMatcher.html 22KB
ConfResource.html 22KB
LogDebugHandler.html 22KB
PrefixStringMatcher.html 22KB
DummyX509TrustManager.html 22KB
SuffixStringMatcher.html 22KB
共 827 条
- 1
- 2
- 3
- 4
- 5
- 6
- 9
资源评论
liuxuuebin
- 粉丝: 1
- 资源: 19
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功