IKAnalyzer中文分词器V2012使用手册.pdf资源-CSDN文库

需积分: 18 192 浏览量 2017-11-20 16:51:54 上传评论收藏 833KB PDF 举报

IKAnalyzer是一款开源的、基于Java语言开发的中文分词工具包，由最初的基于开源项目Lucene的词典分词组件，发展到现在已经发展到V2012版本，成为了一个独立于Lucene项目的公用分词组件。IKAnalyzer 2012版本，增加了对简单分词歧义排除的算法实现，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。 IKAnalyzer 2012版本采用了特有的“正向迭代最细粒度切分算法”，该算法支持细粒度和智能分词两种切分模式。这种分词算法的处理能力非常强大，在一个以Core 2 i7 3.4G双核处理器、4G内存、Windows 7 64位系统和SunJDK 1.6 64位环境下的测试表明，IK 2012能够达到每秒160万字的处理速度，这相当于每秒处理3000KB大小的数据。此外，IKAnalyzer 2012具有以下特性：支持英文字母、数字、中文词汇等分词处理，且兼容韩文；优化的词典存储结构使得内存占用更小；支持用户词典的扩展定义，特别是在2012版本中，词典支持中文、英文和数字混合词语的分词处理。 IKAnalyzer 2012还支持两种分词模式：智能分词和最细粒度分词。智能分词模式能够处理简单的分词歧义并支持数量词的合并输出；而最细粒度分词模式则是将文本尽可能细地切分。在分词效果示例中，IKAnalyzer 2012展示了对不同文本内容的分词处理。例如，对于文本“IKAnalyzer2012版本支持细粒度切分和智能切分”，智能分词和最细粒度分词的处理结果分别展示了其对文本的分析。智能分词模式倾向于将较长的词语（如“分词工具包”）保留为一个整体，而最细粒度分词模式则将词语进一步拆分成更小的单元（如“分词|工具|包”）。 IKAnalyzer 2012的使用指南提供了详细的分词器部署和使用信息。它提供了IKAnalyzer的下载地址，并介绍了IK分词器与Lucene、Solr等其他项目的版本兼容信息。通过GoogleCode的开源项目，用户可以下载IKAnalyzer的不同版本，并根据IKAnalyzer的支持列表来选择与之兼容的Lucene和Solr的版本。对于安装部署，IKAnalyzer的安装包通常包含了使用手册，指导用户如何正确安装和配置IKAnalyzer分词器。该手册还包括了对于词表的扩展使用方法，以及如何针对Solr搜索引擎进行分词器应用扩展的相关说明。通过这份手册的详细指南，用户可以快速上手IKAnalyzer中文分词器，并根据需要进行相应的定制和扩展。例如，当需要添加专业术语或新兴词汇到分词词库中时，用户可以通过扩展用户词典来实现。手册中也提供了作者的相关信息，对于那些希望对IKAnalyzer做出贡献或者进行交流的用户，这是一个重要参考资料。

资源推荐

资源详情

资源评论