基于lucene搜索引擎的java源码资源-CSDN文库

共26个文件

class：8个

java：8个

jar：2个

lucene

java

4星 · 超过85%的资源需积分: 9 99 浏览量 2009-07-13 18:20:25 上传评论收藏 817KB RAR 举报

**基于Lucene搜索引擎的Java源码详解** Lucene是一个高性能、全文检索库，它由Apache软件基金会开发并维护。此Java源码包提供了一个全面的示例，展示了如何利用Lucene进行索引创建、更新（增量索引）以及搜索操作。在深入探讨之前，我们先了解下Lucene的基本概念。 **Lucene核心概念：** 1. **索引（Indexing）**：Lucene通过分析文本，将其转化为一系列可搜索的项，这个过程称为索引。索引包含了文档的关键信息，如词项（Term）、词项频率（Term Frequency）和位置信息等。 2. **文档（Document）**：在Lucene中，一个文档是信息的基本单元，可以是网页、电子邮件、PDF文件等。每个文档由多个字段（Field）组成，如标题、正文、作者等。 3. **字段（Field）**：文档的组成部分，每个字段都有特定的属性，比如是否可被索引、是否可被搜索等。 4. **分词器（Analyzer）**：负责将输入文本分割成词项，不同的语言需要使用不同的分词器。例如，英文使用StandardAnalyzer，中文可能使用IKAnalyzer或SmartChineseAnalyzer。 5. **搜索（Searching）**：用户输入查询后，Lucene会比较查询词项与索引中的词项，找出匹配的文档。 **源码解析：** 1. **建立索引（Indexing）**：在源码中，你会看到`IndexWriter`类的使用，它是创建和更新索引的主要接口。需要配置Analyzer，然后调用`addDocument(Document doc)`方法为每个待索引的文档创建一个新的条目。 2. **增量索引（Incremental Indexing）**：当新的数据或者已索引数据发生变化时，需要进行增量索引。Lucene提供了`UpdateHandler`接口来处理这种场景。源码中可能使用了`IndexWriter.addDocument()`或`IndexWriter.updateDocument()`方法，前者用于添加新文档，后者用于更新已存在的文档。 3. **搜索（Searching）**：`IndexSearcher`和`QueryParser`类是进行搜索的关键。`QueryParser`根据用户的查询字符串生成`Query`对象，然后`IndexSearcher`使用该查询对象找到匹配的文档。`TopDocs`类用于存储搜索结果，包括匹配的文档数量和排序信息。 4. **数据库集成**：源码可能集成了某种数据库系统（如MySQL、Oracle或HSQLDB），用于存储原始数据。Lucene索引的数据通常不直接存储在数据库中，而是从数据库读取数据并构建索引。 **关键类和方法：** - `Analyzer`：用于文本分析，如`StandardAnalyzer`，`ChineseAnalyzer`等。 - `Directory`：存储索引的接口，如`FSDirectory`用于磁盘上的索引。 - `IndexWriter`：创建和更新索引的主要类。 - `Document`：表示一个要索引的文档。 - `Field`：文档中的字段，如`TextField`、`StoredField`等。 - `Query`：表示查询，如`TermQuery`、`BooleanQuery`等。 - `QueryParser`：解析查询字符串生成`Query`对象。 - `IndexSearcher`：执行搜索的类。 - `TopDocs`：存储搜索结果的类。 - `ScoreDoc`：表示单个搜索结果，包括文档ID和得分。学习这个源码包可以帮助你理解如何在Java环境中使用Lucene进行全文检索，以及如何实现数据库与索引之间的交互。这不仅涉及到了Lucene的核心功能，也涵盖了实际项目中常见的增量索引和数据库集成问题。通过阅读和理解这些源码，你将能够熟练地在自己的项目中应用Lucene，提高搜索功能的效率和准确性。

资源推荐

资源详情

资源评论

收起资源包目录

lucenett.rar （26个子文件）

lucenett

.project 1010B

.settings

org.eclipse.jdt.core.prefs 330B

.mymetadata 297B

WebRoot

WEB-INF

web.xml 375B

lib

lucene-core-2.4.0.jar 800KB

lucene-demos-1.2.jar 34KB

classes

com

isloop

DBConn.class 1KB

wind

test

lucene

FileDocument.class 2KB

Index.class 2KB

TestLucene.class 1KB

Search.class 2KB

model

News.class 2KB

NewsManager.class 3KB

DBdemo.class 8KB

index.jsp 834B

META-INF

MANIFEST.MF 39B

data

lucene.sql 103KB

.myeclipse

src

com

isloop

DBConn.java 693B

wind

test

lucene

FileDocument.java 710B

Search.java 1KB

Index.java 1KB

TestLucene.java 598B

model

DBdemo.java 7KB

News.java 2KB

NewsManager.java 2KB

.classpath 677B

package com.wind.model; import java.io.BufferedReader; import java.io.File; import java.io.IOException; import java.io.Reader; import java.io.StringReader; import java.util.ArrayList; import java.util.Date; import java.util.List; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.demo.html.HTMLParser; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.index.IndexReader; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.queryParser.ParseException; import org.apache.lucene.queryParser.QueryParser; import org.apache.lucene.search.Hits; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.search.Query; import org.apache.lucene.search.Searcher; public class DBdemo { // 创建索引 public void indexFiles() { // 创建索引文件存放路径 File indexDir = new File("D:\\lucene\\index"); try { Date start = new Date(); // 创建分析器,主要用于从文本中抽取那些需要建立索引的内容,把不需要参与建索引的文本内容去掉. // 比如去掉一些a the之类的常用词,还有决定是否大小写敏感. StandardAnalyzer standardAnalyzer = new StandardAnalyzer(); // 参数true用于确定是否覆盖原有索引的 IndexWriter indexWriter = new IndexWriter(indexDir, standardAnalyzer, true); indexWriter.setMergeFactor(100); indexWriter.setMaxBufferedDocs(100); // 只索引这个Field的前5000个字，默认为10000 indexWriter.setMaxFieldLength(5000); // 从数据库取出所有纪录 List<News> newsList = NewsManager.getNewss(); for (int i = 0; i < newsList.size(); i++) { News news = (News) newsList.get(i); // 在Document方法是创建索引的具体代码 Document doc = Document(news); indexWriter.addDocument(doc); } // Optimize的过程就是要减少剩下的Segment的数量,尽量让它们处于一个文件中. indexWriter.optimize(); indexWriter.close(); Date end = new Date(); System.out .println("create index: " + (end.getTime() - start.getTime()) + " total milliseconds"); } catch (IOException e) { System.out.println(" caught a " + e.getClass() + "\n with message: " + e.getMessage()); } } public static Document Document(News news) throws java.io.IOException { Document doc = new Document(); // 为news表的主健创建索引，关于Field的几个参数下面有详细解释 Field fieldId = new Field("uid", news.getNewsId().toString(), Field.Store.YES, Field.Index.UN_TOKENIZED, Field.TermVector.YES); // 为detail字段创建索引，detail在DB中是clob字段，内容为html文本 String contentHtml = news.getContent(); if (contentHtml == null) { contentHtml = ""; } contentHtml = contentHtml.replaceAll(" ", ""); contentHtml = contentHtml.replaceAll("<[^<>]*>", ""); Reader read = new StringReader(contentHtml); // 用HTMLParser把detail字段中的HTML分析成文本在索引 // HTMLParser这个类可以在lucene的demo中找到 HTMLParser htmlParser = new HTMLParser(read); BufferedReader breader = new BufferedReader(htmlParser.getReader()); String htmlContent = ""; String tempContent = breader.readLine(); while (tempContent != null && tempContent.length() > 0) { htmlContent = htmlContent + tempContent; tempContent = breader.readLine(); } Field fieldContents = new Field("content", htmlContent, Field.Store.COMPRESS, Field.Index.TOKENIZED, Field.TermVector.YES); // db中的每条纪录对应一个doc，每个字段对应一个field doc.add(fieldId); doc.add(fieldContents); return doc; } // 搜索文件，keyword是你在页面上输入的查找关键字，这里查找的是detail字段 public List<News> searchFiles(String keyword) throws ParseException { String index = "D:\\lucene\\index"; // hitsList用来保存db的纪录，这些纪录可以通过查询结果取到 List<News> hitsList = new ArrayList<News>(); try { Date start = new Date(); IndexReader reader = IndexReader.open(index); Searcher searcher = new IndexSearcher(reader); Analyzer analyzer = new StandardAnalyzer(); QueryParser parser = new QueryParser("content", analyzer); // 解析查询关键字，比如输入的是以空格等分开的多个查询关键字，这里解析后，可以多条件查询 Query query = parser.parse(keyword); // hits用来保存查询结果，这里的hits相当于sql中的result Hits hits = searcher.search(query); for (int i = 0; i < hits.length(); i++) { Document doc = hits.doc(i); // 获得news表的主健 String id = doc.get("uid"); // 根据主健去db中取纪录，返回到hitsList中 News news = null; news = NewsManager.getNews(id); // 如果没有找到该纪录，表示该纪录已经不存在，不必添加到hitsList中 System.out.println("ID-------------" + id); System.out.println("content------------" + doc.get("content")); System.out.println("score------------" + hits.score(i)); if (news != null) hitsList.add(news); } System.out.println("--------------" + hits.length()); searcher.close(); reader.close(); Date end = new Date(); System.out .println("search files: " + (end.getTime() - start.getTime()) + " total milliseconds"); } catch (IOException e) { System.out.println(" caught a " + e.getClass() + "\n with message: " + e.getMessage()); } return hitsList; } // 删除索引 public void deleteIndex() { String index = "D:\\lucene\\index"; try { Date start = new Date(); IndexReader reader = IndexReader.open(index); int numFiles = reader.numDocs(); for (int i = 0; i < numFiles; i++) { // 这里的删除只是给文档做一个删除标记，你可以看到执行deleteDocument后会产生一个del后缀的文件， // 用来记录这些标记过的文件 reader.deleteDocument(i); } reader.close(); Date end = new Date(); System.out .println("delete index: " + (end.getTime() - start.getTime()) + " total milliseconds"); } catch (IOException e) { System.out.println(" caught a " + e.getClass() + "\n with message: " + e.getMessage()); } } // 恢复已删除的索引 public void unDeleteIndex() { String index = "D:\\lucene\\index"; try { IndexReader reader = IndexReader.open(index); reader.undeleteAll(); reader.close(); } catch (IOException e) { System.out.println(" caught a " + e.getClass() + "\n with message: " + e.getMessage()); } } public static void main(String[] args) { DBdemo demo = new DBdemo(); List<News> aa = new ArrayList(); try { aa= demo.searchFiles("高"); System.err.println(aa.size()); } catch (ParseException e) { // TODO Auto-generated catch block e.printStackTrace(); } } }

评论收藏

内容反馈