Lucene4.X实战类baidu搜索的大型文档海量搜索系统-21.Lucene分词器2共9页.pptx资源-CSDN文库

版权申诉

169 浏览量 2023-11-25 17:49:13 上传评论收藏 60KB PPTX 举报

【课程大纲】 01.Lucene4入门精通实战课程-概述共23页 02.Lucene系统架构共16页 03.Lucene索引里有什么共17页 04.Lucene索引深入共24页 05.Lucene索引深入优化共10页 06.Lucene索引搜索共13页 07.Lucene搜索实战1 共4页 08.Lucene搜索实战2 共5页 09.Lucene搜索深入实战1 共5页 10.Lucene搜索深入实战2 共11页 11.Lucene搜索深入实战进阶1 共4页 12.Lucene搜索深入实战进阶2 共9页 13.Lucene搜索深入实战进阶3 共5页 14.Lucene搜索深入实战进阶4 共5页 15.Lucene高级进阶1 共23页 16.Lucene高级进阶2 共4页 17.Lucene高级进阶3 共4页 18.Lucene排序共6页 19.Lucene过滤共4页 20.Lucene分词器1 共3页 21.Lucene分词器2 共9页 22.Lucene分词器3 共4页 23.Lucene项目实战1 共6页 24.Lucene项目实战2 共6页 25.Lucene项目实战3 共6页 26.Lucene项目实战4 共6页 27.Lucene项目实战5 共5页 28.Lucene项目实战6 共5页 29.Lucene项目实战7 共5页 30.Lucene项目实战8 共5页 31.Lucene项目实战9 共5页【Lucene分词器】是Lucene搜索引擎中的关键组件，负责将输入的文本进行分割，以便于后续的索引和搜索操作。在Lucene中，不同的分词器有着不同的处理方式，例如： 1. **SimpleAnalyzer**: 简单分词器，它以空格和各种符号作为分隔符来分割文本，但不处理停用词，如“is”、“and”等常见词汇。例如，"xy&z mail is - xyz@hello.com"会被分割为"xy", "z", "mail", "is", "xyz", "hello", "com"。 2. **StopAnalyzer**: 停用词分词器，除了像SimpleAnalyzer那样按空格和符号分割外，还会过滤掉常见的无意义的停用词，例如“is”、“are”等，使得索引更精简。 3. **StandardAnalyzer**: 标准分词器，它不仅包含停用词过滤，还支持混合分割，尤其是对汉语的支持，如"xy, z, mail, xyz, hello.com, 中文"。此外，文档中提到了一个针对中文分词的开源工具——**IK Analyzer 2012**。这是一个基于Java的轻量级中文分词器，自2006年以来经历了多个版本的迭代。IK Analyzer支持细粒度和智能分词两种模式： - **细粒度分词**：将文本拆分到最细的级别，例如，"IKAnalyzer"可能会被拆分为"IK", "Analyzer"，适用于需要更精确的分词场景。 - **智能分词**：在2012版中，IK Analyzer引入了简单的歧义排除算法，能够处理一些分词歧义，例如将“张三说的”识别为“张三”、“说的”而不是“张三说”、“的”。 IK Analyzer的特性包括： - 使用正向迭代最细粒度切分算法，兼顾效率和准确性。 - 支持多种语言，如英语、数字和中文，并兼容韩文、日文字符。 - 优化的词典存储，降低内存占用，同时允许用户自定义词典扩展。 - 2012版增加了对混合词语（中文、英文、数字）的支持，并具备一定的歧义排除和数量词合并功能。在特定环境下，IK Analyzer 2012的处理速度可达160万字/秒，显示了其高效性能。通过以上不同分词器的比较，我们可以根据具体应用场景选择合适的分词策略。例如，如果需要对英文文档进行索引，StandardAnalyzer可能是不错的选择；而如果是中文文本，特别是需要考虑语义理解时，IK Analyzer的智能分词模式可能更为适用。在实际应用中，还需要根据实际数据和需求进行测试与调整，以达到最佳的搜索效果。

资源推荐

资源详情

资源评论