【免费】solr5.x和6.x最新中文分词器

共108个文件

html：96个

dic：2个

txt：2个

需积分: 0 195 浏览量 2018-06-26 12:46:27 上传评论收藏 18.24MB ZIP 举报

Solr是Apache Lucene项目的一个子项目，是一个高性能、全文本搜索服务器，广泛应用于企业级搜索引擎搭建。在Solr 5.x和6.x版本中，中文分词器扮演着至关重要的角色，它负责将中文文本拆分成有意义的词汇，便于索引和查询。下面将详细介绍Solr中的中文分词器及其相关知识。一、Solr中文分词器概述在处理中文文档时，由于中文句子没有明显的分隔符，如英文的空格，因此需要使用分词器进行预处理。Solr支持多种中文分词器，如IK Analyzer、Smart Chinese Analyzer、Paoding Analyzer等，它们各自有不同的特性和适用场景。 1. IK Analyzer：是一款开源的Java语言实现的中文分词工具，支持词典动态更新，对新词识别能力较强，适用于各种基于Lucene的搜索应用。 2. Smart Chinese Analyzer：是专门为Solr设计的中文分词器，对停用词和词语切分有较好的处理，适合新闻、文章等文本的处理。 3. Paoding Analyzer：基于词典的分词器，拥有较高的分词准确率，支持用户自定义词典，适合专业领域的搜索需求。二、Solr配置中文分词器在Solr中使用中文分词器需要在配置文件中指定。通常在`schema.xml`或`managed-schema`中定义字段类型（FieldType），并设置对应的分词器。例如，使用IK Analyzer： ```xml <fieldType name="text_ik" class="solr.TextField"> <analyzer type="index"> <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true"/> </analyzer> <analyzer type="query"> <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true"/> </analyzer> </fieldType> <field name="content" type="text_ik" indexed="true" stored="true" multiValued="false" /> ``` 这里，`useSmart`参数表示是否开启智能分析模式，可以根据实际需求调整。三、Solr优化与性能提升 1. 分词器性能优化：根据实际应用场景选择合适的分词器，如对新词识别要求高可选用IK Analyzer，对专业领域词汇处理则考虑Paoding Analyzer。 2. 词典定制：针对特定领域，可以自定义词典以提高分词准确性，例如增加行业术语或品牌名称。 3. 分词缓存：开启分词器的缓存功能，减少重复分词的计算，提升效率。 4. 索引优化：合理设置索引字段的分词级别，如全文索引、关键词索引等，平衡索引大小和查询速度。四、Solr 5.x到6.x的变化从Solr 5.x升级到6.x，主要变化包括： 1. 引入了新的Schema API，使得字段类型和字段的管理更加灵活。 2. 支持更强大的分布式搜索和处理，通过CloudSolrServer类可以方便地与SolrCloud集群交互。 3. 查询性能提升，如对Pivot Faceting的优化，以及QueryParser的改进。 4. 日志系统升级，使用LTSV日志格式，便于日志分析。五、持续集成与开发在实际项目中，可以利用Maven或Gradle等构建工具集成Solr，方便进行版本管理和依赖管理。同时，持续关注Solr的版本更新，以便及时获取新特性并修复已知问题。选择合适的中文分词器并对其进行有效配置，对于提升Solr的中文搜索效果至关重要。同时，关注Solr的版本更新和最佳实践，有助于保持系统的稳定性和性能。在实际应用中，应结合业务需求不断调整优化，以达到理想的搜索体验。

资源推荐

资源详情

资源评论

收起资源包目录

solr 5.x 和 6.x 最新中文分词器（108个子文件）

stylesheet.css 1KB

ext_stopword.dic 168B

mydict.dic 34B

.DS_Store 6KB

inherit.gif 57B

Lexeme.html 28KB

Dictionary.html 17KB

DictSegment.html 17KB

DefaultConfig.html 15KB

DefualtConfig.html 15KB

Hit.html 15KB

CharacterUtil.html 15KB

LetterSegmenter.html 14KB

IKTokenizer.html 14KB

CN_QuantifierSegmenter.html 14KB

CJKSegmenter.html 13KB

IKAnalyzer.html 13KB

Configuration.html 12KB

IKSegmenter.html 12KB

index-5.html 12KB

Configuration.html 12KB

IKTokenizerFactory.html 12KB

IKQueryExpressionParser.html 11KB

index-7.html 11KB

Hit.html 11KB

SWMCQueryBuilder.html 10KB

LuceneIndexAndSearchDemo.html 10KB

index-13.html 10KB

IKAnalzyerDemo.html 10KB

IKAnalyzerDemo.html 10KB

help-doc.html 9KB

constant-values.html 9KB

ISegmenter.html 9KB

DictSegment.html 9KB

Lexeme.html 9KB

index-14.html 9KB

Dictionary.html 9KB

ISegmenter.html 9KB

package-use.html 9KB

index-9.html 8KB

overview-tree.html 8KB

index-8.html 7KB

index-15.html 7KB

package-use.html 7KB

index-3.html 7KB

index-11.html 7KB

index-6.html 7KB

package-summary.html 7KB

index-16.html 7KB

package-use.html 7KB

index-17.html 7KB

index-12.html 7KB

index-1.html 7KB

index-2.html 7KB

index-4.html 7KB

package-tree.html 7KB

package-summary.html 7KB

index-10.html 6KB

package-tree.html 6KB

overview-summary.html 6KB

package-summary.html 6KB

package-tree.html 6KB

LuceneIndexAndSearchDemo.html 6KB

IKQueryExpressionParser.html 6KB

CN_QuantifierSegmenter.html 6KB

IKTokenizerFactory.html 6KB

SWMCQueryBuilder.html 6KB

IKAnalzyerDemo.html 6KB

IKAnalyzerDemo.html 6KB

LetterSegmenter.html 6KB

CharacterUtil.html 6KB

IKTokenizer.html 6KB

CJKSegmenter.html 6KB

DefaultConfig.html 6KB

IKAnalyzer.html 6KB

DefualtConfig.html 6KB

IKSegmenter.html 6KB

package-use.html 6KB

deprecated-list.html 5KB

allclasses-frame.html 2KB

allclasses-noframe.html 2KB

overview-frame.html 2KB

index.html 1KB

package-frame.html 1KB

共 108 条

评论收藏

内容反馈

疯狂的小哪吒

粉丝: 0
资源: 1

solr 5.x 和 6.x 最新中文分词器

最新中文分词工具的词库

solr5.5.x的中文分词IKAnalyzer

solr5的中文分词器ik-analyzer-solr5-master.zip

ik-analyzer-solr5-5.x.jar

solr 6.x能够使用的IKAnalyzer分词器

solr 5.4.0 完整包，包含ikanalyzer 中文分词器

solr 5.4.0 完整包，包含ikanalyzer 中文分词器（新）

solr和中文分词器.zip

支持solr 5.3.0的IKAnalyzer中文分词器

适应solr5.x的中文分词IKAnalyzer

solr中的mmesg4j中文分词器安装

solr mmseg4j 中文分词器

solr7.x-ik分词器亲测可用.zip

solr6.x_IK中文分词工具

solr安装包与ik中文分词器.zip

solr以及中文分词器

solr中文分词器ik-analyzer-solr7.x

支持solr6.x的中文分词，对solr7的支持暂时没有测试过

IK中文分词器2012版支持Lucene和solr

solr4.X所用IKAnalyzer中文分词器jar包

solr中文分词器技术

solr中文分词器

solr环境搭建和中文分词器IK配置

lucene、solr中文分词器

solr(中文分词器)集群

ik-analyzer-solr 6.x.x

Notepad++安装包

安卓期末大作业（AndroidStudio开发），垃圾分类助手app，分为前台后台，代码有注释，均能正常运行

最新资源