官方网站 http://www.nutch.org/
中文站点 http://www.nutchchina.com/
最新版本:Nutch 0.7.2 Released
Nutch 是一个开源 Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所
需的全部工具,可以建立自己内部网的搜索引擎,也可以针对整个网络建立搜索
引擎。自由(Free)而免费(Free)。
官方网站 http://lucene.apache.org
中文站点 http://www.lucene.com.cn/
Lucene是 apache软件基金会 jakarta项目组的一个子项目,是一个开放源代码
的全文检索引擎工具包[用 Java写的],即它不是一个完整的全文检索引擎,而
是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析
引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个
简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为
基础建立起完整的全文检索引擎。
3、Larbin: http://larbin.sourceforge.net/index-eng.html
larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret
独立开发。larbin目的是能够跟踪页面的 url进行扩展的抓取,最后为搜索引
擎提供广泛的数据来源。