没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
Nutch 部署和使用文档
发展历史:
年 月由 发起,托管于 ,之后发布了 、、 三个版本
年 月 (俄勒冈州立大学)采用
年 月 (知识共享)推出基于 的搜索服务
年 月加入 Apache 的孵化器
年 月孵化结束成为 ! 的子项目
年 月发布版本 0.7( "#!$%#&)
年 月发布版本 0.7.1
年 ' 月发布版本 0.7.2
年 ( 月发布版本 0.8(全新的架构,基于 Hadoop,Hadoop 诞生)
年 月发布版本 0.8.1
( 年 月发布版本 0.9
年 ' 月发布版本 1.0(Tika 诞生, %$)
年 月 成为 "# 顶级项目
年 月发布版本 1.1
年 月发布版本 1.2
年 月发布版本 1.3( 从搜索引擎到网络爬虫)
年 月发布版本 1.4
年 月发布版本 1.5
年 ( 月发布版本 2.0( )*Gora 诞生,$+%$, )
年 ( 月发布版本 1.5.1
年 月 Nutch 诞生十周年
年 月发布版本 2.1( ) 开始支持 +)
年 月发布版本 1.6
' 年 月发布版本 2.2(crawler-commons 诞生)
' 年 月发布版本 1.7(crawler-commons 诞生)
' 年 ( 月发布版本 2.2.1
年 ' 月发布版本
年 月发布版本
年 月发布版本 '
. 简介:
是一个开源 -实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和 .$ 爬虫。
尽管 .$ 搜索是漫游 / 的基本要求0但是现有 1$ 搜索引擎的数目却在下降并且这很有可能进一步演变成为一个公司垄
断了几乎所有的 1$ 搜索为其谋取商业利益这显然 不利于广大 / 用户
为我们提供了这样一个不同的选择相对于那些商用的搜索引擎0 作为开放源代码 搜索引擎将会更加透明0从而更值
得大家信赖现在所有主要的搜索引擎都采用私有的排序算法0而不会解释为什么一个网页会排在一个特定的位置除此之外0有的搜索引
擎依照网站所付的 费用0而不是根据它们本身的价值进行排序与它们不同0 没有什么需要隐瞒0也没有 动机去扭曲搜索的结果
将尽自己最大的努力为用户提供最好的搜索结果
致力于让每个人能很容易0同时花费很少就可以配置世界一流的 .$ 搜索引擎为了完成这一宏伟的目标0 必须能够
做到2
3每个月取几十亿网页
3为这些网页维护一个索引
3对索引文件进行每秒上千次的搜索
3提供高质量的搜索结果
. 下 环境搭建
步骤一共分为 步:
安装 环境:
执行过程及结果如下图所示
通过 获得 源码版本
!
"# 后的文件夹:
安装 环境:
$编译 %进入 目录里运行 命令
通过 进行编译,通过 & 来进行依赖管理。
构建之后,生成 '( 文件夹,该文件夹下面有 )& 和 文件
夹,分别代表了 的两种运行方式
测试安装是否成功%进入 '( 下运行 返回如下图
剩余15页未读,继续阅读
资源评论
blueis
- 粉丝: 4
- 资源: 18
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功