没有合适的资源?快使用搜索试试~ 我知道了~
search-1047:一个基于Nutch和Hadoop简单搜索引擎
共37个文件
class:15个
java:11个
sh:7个
需积分: 9 0 下载量 5 浏览量
2021-05-14
11:14:56
上传
评论
收藏 64KB ZIP 举报
温馨提示
search-1047 基于Nutch和Hadoop简易搜索引擎,排序的依据主要是PageRank以及由倒排索引文件计算的url page与输入模式的余弦距离值。 Nutch & Hadoop Nutch-1.9:. Nutch爬取产生的链接数据库(MapFile Format)linkdb,以及url的文本库segments/parse_text作为Hadoop输入。 Hadoop-2.6.0:. 文本预处理 作为PageRank的输入 SequenceFileRead.java: 将linkdb/data(SequenceFile Format)转换成linkdb_data(Text Format). OutLinks.java(MapReduce): 将linkdb_data转换成OutLinks_db(Text Format: 每行的第一个字段为源url,后面的所有字段为第一
资源推荐
资源详情
资源评论
收起资源包目录
search-1047-master.zip (37个子文件)
search-1047-master
LICENSE 11KB
src
SequenceFile.java 1KB
Search.java 4KB
TermsSearch.java 4KB
MapFileRead.java 2KB
SequenceFileRead.java 1KB
UrlModulus.java 3KB
TermsSelector.java 5KB
OutLinks.java 3KB
OutLinkNum.java 3KB
SearchReSort.java 2KB
PageRank.java 4KB
lib
SearchPackage
PageRank$PageRankMapper.class 2KB
PageRank.class 2KB
OutLinkNum$OutLinkNumMapper.class 2KB
Search$SearchMapper.class 2KB
Search.class 2KB
OutLinks$OutLinksMapper.class 2KB
Search$SearchReducer.class 2KB
OutLinkNum.class 2KB
OutLinks.class 2KB
SequenceFileRead.class 2KB
Search$TextMatcher.class 795B
OutLinkNum$OutLinkNumReducer.class 1KB
PageRank$PageRankReducer.class 2KB
MapFileRead.class 3KB
OutLinks$OutLinksReducer.class 2KB
Search.jar 29KB
libexec
TermsSelect.sh 820B
PageRank.sh 2KB
PageRankCmp 376B
UrlModulus.sh 1KB
TermsSearch.sh 2KB
PreProcess.sh 182B
OutLinks.sh 3KB
search.sh 712B
README.md 2KB
共 37 条
- 1
资源评论
梦想是世界和平
- 粉丝: 19
- 资源: 4625
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功