elasticsearch-7.0.0版本ik中文分词器_es设置字段时，使用ik分词器试着资源-CSDN文库

共19个文件

dic：11个

jar：5个

properties：1个

elasticsearch

7.0.0版本

ik分词器

5星 · 超过95%的资源 132 浏览量 2020-08-20 10:28:14 上传评论收藏 4.06MB ZIP 举报

**Elasticsearch 7.0.0 版本与 IK 中文分词器详解** Elasticsearch 是一款功能强大的开源搜索引擎，广泛应用于大数据分析、全文检索以及日志分析等领域。在处理中文文档时，为了实现精确的搜索和索引，我们需要使用适合中文的分词器。其中，IK (Intelligent Chinese) 分词器是一款专为 Elasticsearch 设计的高效、可扩展的中文分词组件。在 Elasticsearch 7.0.0 版本中，IK 提供了对中文文本的优秀支持。 IK 分词器最初由王庆民开发，经过多年的社区发展和优化，已经成为中文分词领域的一个热门选择。它支持自定义词典、动态加载、全模式和最细粒度模式等多种分词策略，可以根据实际需求调整分词效果。 1. **安装IK分词器** 要在 Elasticsearch 7.0.0 中使用 IK 分词器，首先需要将分词器的插件包下载并安装到 Elasticsearch 的 plugins 目录下。在提供的压缩包中，包含了编译好的 IK 插件，可以直接使用，无需自行编译。 2. **配置IK分词器** 安装完成后，需要在 Elasticsearch 的配置文件 `elasticsearch.yml` 中进行相应配置，启用 IK 分词器，并指定其配置路径。例如： ``` analysis: analyzer: my_analyzer: # 自定义分词器名称 type: "ik_max_word" # 使用最细粒度模式 tokenizer: "ik_max_word" # 指定使用的分词器 ``` 3. **自定义词典** IK 分词器支持自定义词典，可以在运行时动态加载。通过添加自定义的 `.dict` 文件，可以对特定词汇进行特殊处理，比如增加新词或者修改词性。词典格式通常为每行一个词，每个词后面可跟词性信息。 4. **分词模式** - **全模式（ik_max_word）**：尽可能将句子中的所有可能的词语都切分出来，可能会出现一些不常见的词语组合。 - **最细粒度模式（ik_smart）**：尽可能将句子切分成最少的词语，一般用于用户输入的关键词分析。 5. **使用 IK 分词器** 在创建索引或更新映射时，可以指定使用 IK 分词器，如： ```json PUT my_index { "settings": { "analysis": { "analyzer": { "my_analyzer": { "type": "ik_max_word" } } } }, "mappings": { "properties": { "content": { "type": "text", "analyzer": "my_analyzer" } } } } ``` 这样，字段 `content` 的全文检索将使用我们定义的 `my_analyzer` 分词器。 6. **测试和优化** 可以使用 Elasticsearch 的 `_analyze` API 来测试分词效果，观察分词结果是否满足需求。如果需要进一步优化，可以调整分词模式，或者通过自定义词典增加或排除特定词汇。 Elasticsearch 7.0.0 版本与 IK 中文分词器的结合，使得中文数据的全文检索和分析变得更加高效和准确。通过合理的配置和定制，我们可以更好地适应各种中文应用场景，提升用户体验。

资源推荐

资源详情

资源评论