• ICTCLAS java分词接口

    ICTCLAS 中文分词的elipse 工程

    5
    37
    3.45MB
    2008-11-15
    6
  • Lucene+Nutch搜索引擎 光盘源码

    1.光盘中所附代码的运行环境 操作系统Microsoft Windows 2000/XP及以上 服务器Tomcat 5.5版本 数据库SQL Server 2000以上版本 Java 支持环境JDK 1.6.0版本 2.本书所附光盘范例 代码安装说明:在Eclipse环境下直接选取“import->Existing Project”,导入希望调试的工程。为了测试方便,每个工程保持独立,能够独立编译和运行,部分工程需要引入Lucene相应的Jar包支持。 光盘内文件列表说明: Eclipse工程/LuceneChapter1 说明:本书第一章Eclipse工程文件,测试编程环境的源代码。 文件列表: HelloEclipse.java // Eclipse测试代码 Eclipse工程/LuceneChapter2 说明:本书第二章Eclipse工程文件,搜索引擎原理简单实现的源代码。 文件列表: infoItem.java // infoItem结构 WebCrawler.java // 自己编写的WebCrawler示例代码 WebHttpClient.java // 自己编写的WebHttpClient示例代码 WebParamCrawler.java // 自己编写的WebParamCrawler示例代码 WebParser.java // 自己编写的网页解析WebParser代码 WebParserFilter.java // 网页解析过滤WebParserFilter代码 WordIndex.java // 索引测试WordIndex代码 Eclipse工程/LuceneChapter3 说明:本书第三章Eclipse工程文件,搜索引擎Lucene Demo实现的源代码。 文件列表: CreateIndex.java // 使用Lucene创建索引Demo代码 DemoTest.java // Lucene测试代码 LuceneSearch.java // Lucene检索测试代码 Eclipse工程/LuceneChapter4 说明:本书第四章测试文件,测试网站examweb页面以及下载列表; 文件列表: multiurls.txt // Nutch下载的Url列表 index.htm // 测试网站网页 more.htm // 测试网站网页 music.htm // 测试网站网页 stillmore.htm // 测试网站网页 zqzs.htm // 测试网站网页 Eclipse工程/LuceneChapter5 说明:本书第五章Eclipse工程文件,搜索引擎Lucene 索引实现和测试的源代码。 文件列表: LuceneIndexDatabase.java // 使用Lucene创建数据库数据索引 LuceneIndexDelete.java // 索引内容删除代码 LuceneIndexDeleteId.java // 按照文档ID删除索引文件代码 LuceneIndexDeleteOptimize.java // 删除后文档编号压缩实例代码 LuceneIndexInteger.java // 数字类型索引代码 LuceneIndexList.java // 索引实例 LuceneIndexLocalDisk.java // 本地磁盘纯文本文件索引 LuceneIndexManager.java // 索引管理实例 LuceneIndexNumber.java // 数字类型数据索引 LuceneIndexParam.java // 索引参数测试 LuceneIndexText.java // 索引纯文本文档 LuceneIndexTypes.java // 索引类型实例 LuceneIndexUnsearch.java // 索引实例实例代码 LuceneIndexUpdate.java // 索引更新实例代码 Eclipse工程/LuceneChapter6 说明:本书第六章Eclipse工程文件,搜索引擎Lucene检索实现的源代码。 文件列表: LuceneRAMSearchText.java // 使用内存索引的代码 LuceneSearchQueryType.java // 各种检索类型演示代码 LuceneSearchSpanQuery.java // SpanQuery检索演示代码 LuceneSearchText.java // 对文本索引检索实例代码 Eclipse工程/LuceneChapter7 说明:本书第七章Eclipse工程文件,搜索引擎查询器实现的源代码。 文件列表: BoostChangeQuery.java // Boost参数的演示实例 BoostFieldQuery.java // 修改文档域Boost参数的检索实例 BoostQuery.java // 修改文档Boost参数的检索实例 LuceneSortExplain.java // 检索评分参数输出测试代码 SortByField.java // 按域排序代码 SortByFieldInverse.java // 检索结果逆向排序代码 SortByMultiFields.java // 多域索引代码 SortDocID.java // 按照文档编号索引 SortExtendSearch.java // 自定义排序扩展检索代码 SortExtendTest.java // 排序扩展测试代码 SortRelavence.java // 排序调整代码 Eclipse工程/LuceneChapter8 说明:本书第八章Eclipse工程文件,搜索引擎分析器实现的源代码。 文件列表: ChineseAnalyzer.java // ChineseAnalyzer代码 ChineseFilter.java // ChineseAnalyzer依赖的过滤器 ChineseTokenizer.java // ChineseAnalyzer依赖的分词器 CJKAnalyzer.java // 使用CJKAnalyzer进行中文分析 CJKTokenizer.java // CJKAnalyzer依赖的内部类 ICTCLASAnalyzer.java // 使用ICTCLASAnalyzer进行中文分析 LuceneChineseAnalyzerText.java //使用ChineseAnalyzer进行中文分析代码 LuceneCJKAnalyzerText.java //使用CJKAnalyzer进行中文分析代码 LuceneDefaultAnalyzerText.java // 默认分析器索引代码 LuceneIKAnalyzerText.java // 使用IKAnalyzer进行中文分析代码 LuceneJEAnalyzerText.java // 使用JEAnalyzer进行中文分析代码 LuceneKeywordAnalyzerText.java // 使用KeywordAnalyzer进行分析 LuceneMIKAnalyzerText.java // 使用MIKAnalyzer进行中文分析代码 LuceneSearchAnalyzer.java // SearchAnalyzer演示代码 LuceneSimpleAnalyzerText.java // SimpleAnalyzer分析演示代码 LuceneStandardAnalyzerText.java // StandardAnalyzer分析演示代码 LuceneStopAnalyzerText.java // StopAnalyzer分析演示代码 LuceneWhitespaceAnalyzerText.java // WhitespaceAnalyzer分析演示代码 Eclipse工程/LuceneChapter9 说明:本书第九章Eclipse工程文件,搜索引擎分析器实现和测试的源代码。 文件列表: ChineseAnalyzer.java // 中文分词演示代码代码 ChineseFilter.java // 一个内部依赖文件中文过滤器代码 ChineseTokenizer.java // 一个内部依赖文件中文切分器代码 DataBaseTool.java // 数据库基础工具代码代码 HtmlParserExtraction.java // HtmlParser提取HTML文件内容代码 HtmlParserGetBaiduUrls.java // HtmlParser获取检索结果页链接代码 HtmlParserGetLexerUrls.java // HtmlParser中使用Lexer获取链接代码 HtmlParserGetPageUrls.java // 获取网页所有链接代码 iTextPDFExtractor.java // 使用iText解析PDF文档代码 PDFBoxHello.java // PDFBox测试代码 PDFBoxLuceneIndex.java // PDFBox创建PDF文件的Lucene索引 PDFBoxPathIndex.java // PDFBox创建指定目录PDF文档索引 POIOfficeExtractor.java // POI处理Excel和Word文档代码 ResultBean.java // 结果集管理类 XercesXMLExtractor.java // 使用Xerces的XML解析 XMLExtractor.java // XML文件内容解析 Eclipse工程/LuceneChapter10 说明:本书第十章Eclipse工程文件,搜索引擎的源代码。 文件列表: MultiSocketClient.java // 多客户端程序 SockClient.java // Socket通信客户端 SockServer.java // Socket通信服务器 SockServer2.java // 带检索功能的Socket通信服务器 DistributedSearch.java // Nutch分布式检索代码 DistributedSearchTest.java // Nutch分布式检索测试代码 Eclipse工程/LuceneChapter11 说明:本书第十一章Eclipse工程文件,Nutch专题搜索引擎实例的源代码。 文件列表: createkeywordstable.sql // 关键词配置数据库 DataBaseTool.java // 数据库运行参数访问工具 RadarSpecialSearchEngine.java // 信息监控搜索 index.jsp // Web首页 resultprocess.jsp // 检索结果处理Web页面 search.jsp // 检索调用结果Web页面 Eclipse工程/LuceneChapter12 说明:本书第十二章Eclipse工程文件,Lucene实现企业搜索实例的源代码。 文件列表: BNVConfig.xml // 系统运行参数配置文件 ConfigClassify.java // 配置文件解析参数组管理 ConfigField.java // 配置文件域访问类 ConfigManager.java // 配置文件管理,组织参数文件 create_luceneinfo.sql // 实例数据库创建脚本 databaseTool.java // 复杂的数据库访问工具 datatool.java // 数据库访问工具 EBNVIndex.java // 负责索引的总体控制和调用 FileDocument.java // 文档类 FileManager.java // 负责文件和内容管理 LuceneIndexLocalDisk.java // 负责本地文档解析加载和索引 SearchResultBean.java // 负责组织检索结果 SearchTool.java // Lucene内容检索类 XMLExtractor.java // XML文档解析类 results.jsp // 搜索web页面

    5
    38
    21.93MB
    2008-11-10
    5
  • 开发自己的搜索引擎

    这是在没有tomcat插件下的搜索引擎实例源码

    4
    272
    5.35MB
    2008-08-02
    31
  • java 编程思想doc

    java 编程思想可供初学者学习java的基本语法

    4
    89
    8.45MB
    2008-07-24
    9
  • javascript全程指南

    内容比较全面,不过是网页,需要查找源文件

    0
    37
    1.3MB
    2008-07-24
    0
  • 搜索引擎技术培训

    搜索引擎技术培训的了解

    0
    67
    512KB
    2008-07-24
    9
  • 搜索引擎简介

    基本上介绍了搜索引擎的各个方面

    0
    61
    512KB
    2008-07-24
    3
  • tomcatpluginv3

    服务器插件,对web应用很有用

    0
    56
    786KB
    2008-05-11
    0
  • htmlparser1.6

    学习抓取网页的一个必要包

    0
    21
    4.14MB
    2008-05-11
    0
  • tm-extractors-0.4

    解析word文本的必需包

    0
    24
    226KB
    2008-05-01
    3
  • 笔耕不辍

    累计2年每年原创文章数量>=20篇
  • 分享宗师

    成功上传21个资源即可获取
关注 私信
上传资源赚积分or赚钱