没有合适的资源?快使用搜索试试~ 我知道了~
search-1047:一个基于Nutch和Hadoop简单搜索引擎

共37个文件
class:15个
java:11个
sh:7个

需积分: 7 47 浏览量
2021-05-14
11:14:56
上传
评论
收藏 64KB ZIP 举报
search-1047 基于Nutch和Hadoop简易搜索引擎,排序的依据主要是PageRank以及由倒排索引文件计算的url page与输入模式的余弦距离值。 Nutch & Hadoop Nutch-1.9:. Nutch爬取产生的链接数据库(MapFile Format)linkdb,以及url的文本库segments/parse_text作为Hadoop输入。 Hadoop-2.6.0:. 文本预处理 作为PageRank的输入 SequenceFileRead.java: 将linkdb/data(SequenceFile Format)转换成linkdb_data(Text Format). OutLinks.java(MapReduce): 将linkdb_data转换成OutLinks_db(Text Format: 每行的第一个字段为源url,后面的所有字段为第一
资源推荐
资源详情
资源评论














收起资源包目录











































共 37 条
- 1
资源评论

梦想是世界和平
- 粉丝: 16
- 资源: 4628

上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助

会员权益专享
安全验证
文档复制为VIP权益,开通VIP直接复制
