没有合适的资源?快使用搜索试试~ 我知道了~
IKAnalyzer中文分词器V2012使用手册.pdf
需积分: 18 7 下载量 18 浏览量
2017-11-20
16:51:54
上传
评论
收藏 833KB PDF 举报
温馨提示
试读
16页
IKAnalyzer中文分词器V2012使用手册,说明了改分词器的具体使用步骤
资源推荐
资源详情
资源评论
IKAnalyzer 中文分词器
V2012 使用手册
目录
1.IK Analyzer 2012 介绍 .................................................................................................. 2
2.使用指南 ........................................................................................................................ 5
3.词表扩展 ...................................................................................................................... 12
4.针对 solr 的分词器应用扩展 ...................................................................................... 15
5.关于作者 ...................................................................................................................... 16
1.IK Analyzer 2012 介绍
IK Analyzer 是一个开源的,基于 java 语言开发的轻量级的中文分词工具包。从 2006
年 12 月推出 1.0 版开始, IKAnalyzer 已经推出了 4 个大版本。最初,它是以开源项目
Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件。从 3.0 版本开始,
IK 发展为面向 Java 的公用分词组件,独立于 Lucene 项目,同时提供了对 Lucene 的默认
优化实现。在 2012 版本中,IK 实现了简单的分词歧义排除算法,标志着 IK 分词器从单纯
的词典分词向模拟语义分词衍化。
1.1 IK Analyzer 2012 结构设计
1.2 IK Analyzer 2012 特性
采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式;
在系统环境:Core2 i7 3.4G 双核,4G 内存,window 7 64 位, Sun JDK 1.6_29 64
位 普通 pc 环境测试,IK2012 具有 160 万字/秒(3000KB/S)的高速处理能力。
2012 版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。
采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、
日文字符
优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的,在 2012 版本,
词典支持中文,英文,数字混合词语。
1.3 分词效果示例
IK Analyzer 2012 版本支持 细粒度切分 和 智能切分,以下是两种切分方式的演示样例。
文本原文 1:
IKAnalyzer 是一个开源的,基于 java 语言开发的轻量级的中文分词工具包。从 2006 年 12
月推出 1.0 版开始, IKAnalyzer 已经推出了 3 个大版本。
智能分词结果:
ikanalyzer | 是 | 一个 | 开源 | 的 | 基于 | java | 语言 | 开发 | 的 | 轻量级 | 的 | 中
文 | 分词 | 工具包 | 从 | 2006年 | 12月 | 推出 | 1.0版 | 开始 | ikanalyzer | 已经 | 推
| 出了 | 3个 | 大 | 版本
最细粒度分词结果:
ikanalyzer | 是 | 一个 | 一 | 个 | 开源 | 的 | 基于 | java | 语言 | 开发 | 的 | 轻量级
| 量级 | 的 | 中文 | 分词 | 工具包 | 工具 | 包 | 从 | 2006 | 年 | 12 | 月 | 推出 | 1.0 |
版 | 开始 | ikanalyzer | 已经 | 推出 | 出了 | 3 | 个 | 大 | 版本
文本原文 2:
张三说的确实在理
智能分词结果:
张三 | 说的 | 确实 | 在理
最细粒度分词结果:
张三 | 三 | 说的 | 的确 | 的 | 确实 | 实在 | 在理
文本原文 3
公路局正在治理解放大道路面积水问题
智能分词结果:
公路局 | 正在 | 治理 | 解放 | 大道 | 路面 | 积水 | 问题
最细粒度分词结果:
公路局 | 公路 | 路局 | 正在 | 治理 | 理解 | 解放 | 放大 | 大道 | 道路 | 路面 | 面积
| 积水 | 问题
文本原文 4
据路透社报道,印度尼西亚社会事务部一官员星期二(29 日)表示,日惹市附近当地时间 27
日晨 5 时 53 分发生的里氏 6.2 级地震已经造成至少 5427 人死亡,20000 余人受伤,近 20
万人无家可归。
智能分词结果:
据 | 路透社 | 报道 | 印度尼西亚 | 社会 | 事务部 | 一 | 官员 | 星期二 | 29 日 | 表示 |
日 | 惹 | 市 | 附近 | 当地时间 | 27 日 | 晨 | 5 时 | 53 分 | 发生 | 的 | 里氏 | 6.2 级 |
地震 | 已经 | 造成 | 至少 | 5427 人 | 死亡 | 20000 | 余人 | 受伤 | 近 | 20 | 万人 |
剩余15页未读,继续阅读
资源评论
m0_37836305
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功