没有合适的资源?快使用搜索试试~ 我知道了~
storm-crawler:基于Apache Storm的可扩展,成熟且通用的Web搜寻器
共269个文件
java:178个
xml:33个
md:11个
需积分: 8 0 下载量 155 浏览量
2021-02-03
20:31:43
上传
评论
收藏 630KB ZIP 举报
温馨提示
StormCrawler是开源资源集合,用于在上构建低延迟,可扩展的Web搜寻器。 它是在下提供的,并且大部分是用Java编写的。 快速开始 注意:这些说明假定您已安装 。 最简单的入门方法是使用生成一个基于StormCrawler的全新项目: mvn archetype:generate -DarchetypeGroupId=com.digitalpebble.stormcrawler -DarchetypeArtifactId=storm-crawler-archetype -DarchetypeVersion=1.17 系统会要求您输入一个groupId(例如com.mycompa
资源推荐
资源详情
资源评论
收起资源包目录
storm-crawler:基于Apache Storm的可扩展,成熟且通用的Web搜寻器 (269个子文件)
test_recursive_embedded.docx 26KB
es-crawler.flux 3KB
crawler.flux 2KB
.gitattributes 74B
.gitignore 180B
.gitignore 167B
archetype-post-generate.groovy 266B
stackexception.html 208KB
digitalpebble.com.html 5KB
redir.html 136B
duplicateLinks.html 125B
FetcherBolt.java 38KB
DOMBuilder.java 26KB
SimpleFetcherBolt.java 22KB
WARCSpout.java 21KB
JSoupParserBolt.java 19KB
HttpProtocol.java 19KB
CloudSearchIndexerBolt.java 17KB
BasicURLNormalizerTest.java 16KB
SiteMapParserBoltTest.java 16KB
BasicURLNormalizer.java 16KB
WARCRecordFormat.java 15KB
SiteMapParserBolt.java 15KB
ParserBolt.java 15KB
IndexerBolt.java 15KB
AggregationSpout.java 14KB
StatusUpdaterBolt.java 14KB
CookieConverterTest.java 13KB
AdaptiveScheduler.java 13KB
HttpProtocol.java 13KB
FastURLFilter.java 11KB
ElasticSearchConnection.java 11KB
AbstractStatusUpdaterBolt.java 10KB
FeedParserBolt.java 10KB
AbstractQueryingSpout.java 10KB
JSoupParserBoltTest.java 10KB
AbstractIndexerBolt.java 9KB
RegexURLNormalizer.java 9KB
CollapsingSpout.java 9KB
CharsetIdentification.java 9KB
AbstractSpout.java 9KB
HttpRobotRulesParser.java 9KB
XPathFilter.java 8KB
SolrSpout.java 8KB
StatusUpdaterBolt.java 8KB
FileSpout.java 8KB
Metadata.java 8KB
BasicIndexingTest.java 8KB
SQLSpout.java 8KB
AbstractHttpProtocol.java 8KB
DefaultScheduler.java 8KB
HybridSpout.java 7KB
SchedulingURLBuffer.java 7KB
AdaptiveSchedulerTest.java 7KB
URLUtil.java 7KB
URLPartitionerBolt.java 7KB
GzipHdfsBolt.java 7KB
ParseFilters.java 7KB
RobotRulesParser.java 7KB
NavigationFilters.java 6KB
IndexerBolt.java 6KB
MetadataTransfer.java 6KB
ScrollSpout.java 6KB
MemorySpout.java 6KB
CollectionTagger.java 6KB
WARCRecordFormatTest.java 6KB
TextExtractor.java 6KB
JSONURLFilterWrapper.java 6KB
JSONResourceWrapper.java 6KB
MetricsConsumer.java 6KB
StatusMetricsBolt.java 6KB
LanguageID.java 6KB
RobotsTags.java 6KB
CookieConverter.java 5KB
RegexURLFilterBase.java 5KB
HostURLFilterTest.java 5KB
S3Cacher.java 5KB
FileResponse.java 5KB
LinkParseFilter.java 5KB
MetricsConsumer.java 5KB
MetricsConsumer.java 5KB
S3CacheChecker.java 5KB
IndexerBolt.java 5KB
ESCrawlTopology.java 5KB
ConfigurableTopology.java 5KB
AbstractFetcherBoltTest.java 5KB
URLFilters.java 5KB
DocumentFragmentBuilder.java 4KB
RemoteDriverProtocol.java 4KB
IndexerBoltTest.java 4KB
ParserBoltTest.java 4KB
StatusEmitterBolt.java 4KB
LDJsonParseFilter.java 4KB
URLFilterBolt.java 4KB
URLBuffer.java 4KB
ConfUtils.java 4KB
Configurable.java 4KB
ProtocolFactory.java 4KB
URLPartitioner.java 4KB
HostURLFilter.java 4KB
共 269 条
- 1
- 2
- 3
资源评论
明天哇哈哈
- 粉丝: 26
- 资源: 4733
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功