# IK-Analyze Java开源中文分词器
![https://search.maven.org/search?q=g:%22net.renfei%22%20AND%20a:%22ik-analyzer%22](https://img.shields.io/maven-central/v/net.renfei/ik-analyzer.svg?label=Maven%20Central)
![License](https://img.shields.io/github/license/renfei/ik-analyzer)
> IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,
> IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。
>
> ### IK Analyzer 2012特性
>
> * 采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式;
> * 在系统环境:Core2 i7 3.4G双核,4G内存,window 7 64位, Sun JDK 1.6_29 64位 普通pc环境测试,IK2012具有160万字/秒(3000KB/S)的高速处理能力。
> * 2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。
> * 采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符
> * 优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的,在2012版本,词典支持中文,英文,数字混合词语
>
> IKAnalyzer的原作者为林良益[linliangyi2007@gmail.com](mailto:linliangyi2007@gmail.com)
> ,原始代码库为[http://code.google.com/p/ik-analyzer](http://code.google.com/p/ik-analyzer)
## 说明
本仓库代码在原作者的基础上进行修改,原作者在2012年停更,我为了使用分词功能和Maven构建进行了克隆,移除了 Solr 部分,如果你需要请参考下面的仓库:
* Solr(ik-analyzer-solr): [https://github.com/magese/ik-analyzer-solr](https://github.com/magese/ik-analyzer-solr)
* ElasticSearch(
elasticsearch-analysis-ik): [https://github.com/medcl/elasticsearch-analysis-ik](https://github.com/medcl/elasticsearch-analysis-ik)
## 使用示例
Maven 依赖:
```xml
<dependency>
<groupId>net.renfei</groupId>
<artifactId>ik-analyzer</artifactId>
<version>3.0.0.1</version>
</dependency>
```
版本号的说明:前三位代表依赖 lucene 的版本,最后一位是重新发布的次数。
分词:
```java
String str = "书籍是人类进步的阶梯。";
IKSegmentation ikSeg = new IKSegmentation(new StringReader(str) , false);
try {
Lexeme l = null;
while( (l = ikSeg.next()) != null){
System.out.println(l);
}
} catch (IOException e) {
e.printStackTrace();
}
```
运行结果:
```text
0-2 : 书籍 : CJK_NORMAL
2-3 : 是 : UNKNOWN
3-5 : 人类 : CJK_NORMAL
5-7 : 进步 : CJK_NORMAL
7-8 : 的 : UNKNOWN
8-10 : 阶梯 : CJK_NORMAL
```
### 自定义词典
我们需要载入自己的词典时可以这样:
```java
Dictionary dictionary = Dictionary.getInstance();
if (!dictionary.isLoadedCustomDictionary()) {
// 没有加载自定义词典,加载自定义词典
// https://github.com/renfei/dict
CustomDictionary customDictionary = new CustomDictionary();
customDictionary.setMainDictInputStream(new FileInputStream("/Users/renfei/Downloads/sogou.txt"));
dictionary.loadCustomDictionary(customDictionary);
}
```
## 词典
本仓库词典文件位置:[src/main/resources/dic](src/main/resources/dic)
我也准备好了词典库:[https://github.com/renfei/dict](https://github.com/renfei/dict)
词典可以去搜狗输入法下载词库:[https://pinyin.sogou.com/dict/](https://pinyin.sogou.com/dict/),将词库文件转换为 txt
文件的工具代码可见:[https://github.com/renfei/SogouScelFileProcessing](https://github.com/renfei/SogouScelFileProcessing)
* 主词典:[main.dic](src/main/resources/dic/main.dic)
* 介词\副词词典:[preposition.dic](src/main/resources/dic/preposition.dic)
* 量词词典:[quantifier.dic](src/main/resources/dic/quantifier.dic)
* 停止词词典:[stopword.dic](src/main/resources/dic/stopword.dic)
* 后缀词典:[suffix.dic](src/main/resources/dic/suffix.dic)
* 姓氏词典:[surname.dic](src/main/resources/dic/surname.dic)
没有合适的资源?快使用搜索试试~ 我知道了~
基于java语言开发的轻量级的中文分词工具包.zip
共44个文件
java:28个
dic:9个
xml:2个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 38 浏览量
2024-03-23
23:05:29
上传
评论
收藏 1.13MB ZIP 举报
温馨提示
基于java语言开发的轻量级的中文分词工具包.zip
资源推荐
资源详情
资源评论
收起资源包目录
基于java语言开发的轻量级的中文分词工具包.zip (44个子文件)
java0323
pom.xml 7KB
src
test
resources
CH_stopword.dic 4KB
mydict.dic 3B
java
org
wltea
analyzer
cube
HCube.java 931B
test
SegmentorTester.java 22KB
NumberSegmenter.java 113B
LoadCustomDictionaryTest.java 1KB
DictionaryTester.java 14KB
StandardAnalyzerTest.java 14KB
SimpleQuantifierSegmenter.java 7KB
IKTokenerTest.java 781B
CfgTester.java 378B
CharacterTest.java 1KB
main
resources
IKAnalyzer.cfg.xml 413B
ext_stopword.dic 134B
dic
main.dic 2.65MB
stopword.dic 129B
quantifier.dic 1KB
suffix.dic 156B
surname.dic 619B
preposition.dic 151B
java
org
wltea
analyzer
seg
QuantifierSegmenter.java 17KB
LetterSegmenter.java 8KB
ISegmenter.java 426B
CJKSegmenter.java 6KB
Context.java 7KB
sample
IKAnalyzerDemo.java 3KB
IKSegmentation.java 5KB
dic
Hit.java 2KB
CustomDictionary.java 2KB
DictSegment.java 7KB
Dictionary.java 18KB
lucene
IKQueryParser.java 32KB
IKSimilarity.java 770B
IKTokenizer.java 2KB
IKAnalyzer.java 1KB
cfg
Configuration.java 3KB
help
CharacterHelper.java 2KB
Lexeme.java 5KB
LICENSE 17KB
.gitignore 12B
README.md 4KB
.whitesource 244B
NOTICE 277B
共 44 条
- 1
资源评论
Kwan的解忧杂货铺
- 粉丝: 1w+
- 资源: 3682
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Delphi优质学习资源和工具.txt
- Rust优质资源和工具.txt
- Kotlin优质资源和工具.txt
- OpenCASCADE入门(2)-openCasCade7.6.0版本的exe方式安装,vs2017环境配置,编译和使用draw
- ACM(Association for Computing Machinery,计算机协会)相关的资源.txt
- 个能够从 YouTube 上抓取信息的 Python 网络爬虫,你可以使用 Python 的 Requests 库来进行网络请求
- 学生管理系统示例代码.rar
- music search and download. - 全网音乐搜索和下载
- Maven项目管理分析实列教程.txt
- VBA代码实现excel自动导出到PPT
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功