Ansj中文分词
==================
在线测试地址<a href="http://demo.ansj.org">在线测试地址!</href>,
##maven
````
<repositories>
<repository>
<id>mvn-repo</id>
<url>http://ansjsun.github.io/mvn-repo/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>org.ansj</groupId>
<artifactId>ansj_seg</artifactId>
<version>0.9</version>
</dependency>
</dependencies>
````
##Download jar
````
首先需要分词程序的jar
https://github.com/ansjsun/mvn-repo/tree/gh-pages/org/ansj/ansj_seg
然后还需要导入tree的数据结构jar
https://github.com/ansjsun/mvn-repo/tree/gh-pages/org/ansj/tree_split
````
增加了对lucene的支持.如果不想编译文件可以直接到 https://github.com/ansjsun/mvn-repo/tree/gh-pages/org/ansj 这里下载jar包!
这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化
内存中中文分词每秒钟大约100万字(速度上已经超越ictclas)
文件读取分词每秒钟大约30万字
准确率能达到96%以上
目前实现了.中文分词. 中文姓名识别 . 用户自定义词典
可以应用到自然语言处理等方面,适用于对分词效果要求搞的各种项目.
如果你在eclipse中跑这个项目.需要导入tree-split 的jar包.当然也可以incloud 这个项目https://github.com/ansjsun/TreeSplitWord
如果你第一次下载只想测试测试效果可以调用这个简易接口
<pre><code>
String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ;
System.out.println(ToAnalysis.paser(str));
[欢迎/, 使用/, ansj/, _/, seg/, ,/, (/, ansj/, 中文/, 分词/, )/, 在/, 这里/, 如果/, 你/, 遇到/, 什么/, 问题/, 都/, 可以/, 联系/, 我/, 房/, 我/, 一定/, 尽/, 我/, 所/, 能/, ./, 帮助/, 大家/, ./, ansj/, _/, seg/, 更/, 快/, ,/, 更/, 准/, ,/, 更/, 自由/, !/]
</code></pre>
----
##大事记要
#2013年9月26日
* 我更新完了发表此帖为止的一次更新。在核心辞典上作了一些手脚。这个版本更像以前的版本。在分词的颗粒度上保持了优良的传统。尤其是面向搜索的用户。一定要更新
#2013-08-28
* 经过无数网友的抗议。ansj终于支持了maven。在这里感谢帮我把项目转换到maven的那个兄弟。你qq我找不到了。名字我也忘记了。
#改进
* 断断续续修改了无数个版本。在csdn的搜索系统上。用12年的历史数据.检索分析等.ansj经受住了考验。但是根据网友和自己的发现。找到了项目中的很多不足于是。开工。。。。。
* 同时在改进的过程中。我认识了更多的朋友。太多了。恩还有在读这篇文章的你。感谢你们对这个小工具的支持。在这里不一一例举了。主要找你们的名字比较麻烦。而我有是个很懒惰的人
#崩溃
* 如大多数的开源者一样,项目带来了很多负担
比如。在你工作或者思考的时候。别人就会打断你的思路。qq or email 提出了数个问题。或者bug。当然这些中大多都是友善的很有意义的建议。一方面让我更加坚定做好这个开源分词的决心。另一方面也给我的工作生活带来了一些效率上的影响。大多数提问我都是会回答。而且尽可能的保持耐心。但是如果有怠慢的地方。我在这里对大家表示歉意。
#诞生
* 2012-9-7 日Ansj中文分词。在我整整一夜的奋斗中终于完成了,真的是一夜的奋斗。写着写着一抬头天亮了。当然中间的快乐与心酸这里就不牢骚了。
* 通过微薄@了52nlp希望他能帮我推广下。在他的帮助下。ansj结识了很多朋友。@完后我就去睡觉了。辗转的一个夜晚。当下午醒来的时候。很多人微薄@我。我开玩笑的和cq说。我火了。
* 同时也@了我的启蒙导师张华平老师。他对我表示了支持。在这里感谢他
没有合适的资源?快使用搜索试试~ 我知道了~
中分分词系统附带巨量中文词库
共113个文件
java:90个
dic:10个
xml:4个
5星 · 超过95%的资源 需积分: 10 84 下载量 76 浏览量
2013-11-19
09:56:09
上传
评论 3
收藏 7.23MB ZIP 举报
温馨提示
一套强大的分词系统并按照主语谓语动词等进行结构划分,并重写了数据结构和算法,并且进行了部分的人工优化内存,中文分词每秒钟读取大约100万字,并附带40多万中文词语库。下载后进入readme.md参考文档,将其部署eclipse上,并有在线测试地址
资源推荐
资源详情
资源评论
收起资源包目录
中分分词系统附带巨量中文词库 (113个子文件)
asian_name_freq.data 1.04MB
company.data 939KB
bigramdict.dic 6.19MB
default.dic 6.09MB
arrays.dic 4.02MB
new_word_freq.dic 1.02MB
person.dic 37KB
jianFan.dic 30KB
newWordFilter.dic 10KB
englishLibrary.dic 627B
numberLibrary.dic 335B
ambiguity.dic 210B
.gitignore 201B
NewWordDetection.java 65KB
PorterStemmer.java 12KB
PorterStemmer.java 12KB
Test.java 9KB
AnsjAnalysisTest.java 8KB
ForeignPersonRecognition.java 8KB
InitDictionary.java 7KB
Analysis.java 7KB
AsianPersonRecognition.java 6KB
UserDefineLibrary.java 6KB
MyStaticValue.java 6KB
Graph.java 6KB
LearnTool.java 5KB
NlpDemo.java 5KB
AnsjServer.java 5KB
DicManager.java 4KB
CompanyTest.java 4KB
PersonRecognitionTest.java 4KB
Term.java 4KB
WordAlert.java 4KB
ToAnalysis.java 4KB
MathUtil.java 4KB
NewTerm.java 4KB
CompanyRecogntion.java 3KB
PatHashMap.java 3KB
NatureLibrary.java 3KB
GetWordsImpl.java 3KB
NearTest.java 3KB
UserDefineRecognition.java 3KB
IndexAnalysis.java 3KB
TermNatures.java 3KB
KeyWordComputer.java 3KB
NatureRecognition.java 3KB
NewWordRecognition.java 3KB
AnsjTokenizer.java 3KB
CompanyAttrLibrary.java 2KB
CSDNBLogTest.java 2KB
UserDefinedAnalysisTest.java 2KB
NlpAnalysis.java 2KB
NumRecognition.java 2KB
NgramLibrary.java 2KB
NewWord.java 2KB
AnsjTokenizer.java 2KB
SimpleDemo.java 2KB
PersonAttrLibrary.java 2KB
KeyWordCompuerDemo.java 2KB
PersonNatureAttr.java 2KB
TermUtil.java 2KB
FilterModifWord.java 2KB
TermNature.java 2KB
TestFile3.java 2KB
AppTest.java 2KB
NewWordFindDemo.java 1KB
CompanyNatureAttr.java 1KB
ReloadAmbiguityLibrary.java 1KB
AccuracyTest.java 1KB
BaseAnalysis.java 1KB
FilterAndUpdateNatureDemo.java 1KB
ToAnalysisTest.java 1KB
JianFanZhuanhuanDemo.java 1KB
IndexDefaultContrast.java 1KB
AnsjServlet.java 1KB
NewWordAttrLibrary.java 1KB
Keyword.java 1KB
AnsjIndexAnalysis.java 1KB
FileDemo.java 1KB
AnsjAnalysis.java 1KB
MoneyTest.java 1KB
ReloadUserLibrary.java 1KB
AnsjIndexAnalysis.java 1KB
GetWords.java 1013B
NewWordNatureAttr.java 991B
AnsjAnalysis.java 983B
NameDicPaser.java 929B
DynamicWordDemo.java 894B
NatrueFileTest.java 823B
Nature.java 813B
NlpTest.java 798B
BigramEntry.java 789B
TestFilter.java 786B
DicReader.java 784B
ForeignPersonRecongnitionTest.java 728B
NatureDemo.java 632B
Demo.java 611B
LibraryDemo.java 564B
NatureRecognitionTest.java 497B
BaseAnalysisDemo.java 400B
共 113 条
- 1
- 2
资源评论
- 潋潋光凝2014-06-10不错啦,不过后来没有用
- quida2014-07-21不错,不过我还没有 用到.
- kelebar112015-01-06不错,有参考价值
michaeltang123
- 粉丝: 3
- 资源: 2
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 技术资料分享DS1820很好的技术资料.zip
- Ansible playbook 用于安装 nextcloud、php、nginx 或 apache、mariadb 或 postgres、redis-server、onlyoffice 或 .zip
- 精选微信小程序源码:医疗保健课程小程序(完整带node后台)(含源码+源码导入视频教程&文档教程,亲测可用)
- HR SaaS操作说明v2.0.0 (2).rp
- IMIE码查询手机.rp
- 技术资料分享ENC28J60很好的技术资料.zip
- intest6.rp
- inNeed移动端通用模板.rp
- IOS登入注册简单模块.rp
- 技术资料分享E文JPEG编解码介绍很好的技术资料.zip
- INVT.rp
- ITS学生端需求.rp
- IT在线教育平台—B端.rp
- iPhoneX和iPhone8设备素材及原型模板.rp
- 技术资料分享FAT32简单教材很好的技术资料.zip
- IT在线教育平台—C端.rp
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功