Ansj中文分词
==================
在线测试地址<a href="http://demo.ansj.org">在线测试地址!</href>,
增加了对lucene的支持.如果不想编译文件可以直接到 https://github.com/ansjsun/ansj_seg/tree/master/contrib 这里下载jar包!
这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化
内存中中文分词每秒钟大约100万字(速度上已经超越ictclas)
文件读取分词每秒钟大约30万字
准确率能达到96%以上
目前实现了.中文分词. 中文姓名识别 . 用户自定义词典
可以应用到自然语言处理等方面,适用于对分词效果要求搞的各种项目.
如果你在eclipse中跑这个项目.需要导入tree-split 的jar包.当然也可以incloud 这个项目https://github.com/ansjsun/TreeSplitWord
如果你第一次下载只想测试测试效果可以调用这个简易接口
<pre><code>
String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ;
System.out.println(ToAnalysis.paser(str));
[欢迎/, 使用/, ansj/, _/, seg/, ,/, (/, ansj/, 中文/, 分词/, )/, 在/, 这里/, 如果/, 你/, 遇到/, 什么/, 问题/, 都/, 可以/, 联系/, 我/, 房/, 我/, 一定/, 尽/, 我/, 所/, 能/, ./, 帮助/, 大家/, ./, ansj/, _/, seg/, 更/, 快/, ,/, 更/, 准/, ,/, 更/, 自由/, !/]
</code></pre>
这是一个简单的分词效果,你可以在test目录中找到他.当然.个别歧异性的处理无法代表整体分词.仅做参考
<pre><code>
[脚下/f, 的/uj, 一大/j, 块/q, 方砖/n, 地面/n]
[长春/ns, 市长/n, 春节/t, 讲话/n]
[结婚/v, 的/uj, 和/c, 尚未/d, 结婚/v, 的/uj]
[结合/v, 成/v, 分子/n, 时/ng]
[旅游/vn, 和/c, 服务/vn, 是/v, 最/d, 好/a, 的/uj]
[邓颖/nr, 超生/v, 前/f, 最/d, 喜欢/v, 的/uj, 一个/m, 东西/n]
[中国/ns, 航天/n, 官员/n, 应邀/v, 到/v, 美国/ns, 与/p, 太空/s, 总署/n, 官员/n, 开会/v]
[上海/ns, 大学城/n, 书店/n]
[北京/ns, 大/a, 学生/n, 前来/v, 应聘/v]
[中外/j, 科学/n, 名著/n]
[为/p, 人民/n, 服务/vn]
[独立自主/i, 和/c, 平等互利/l, 的/uj, 原则/n]
[为/p, 人民/n, 办/v, 公益/n]
[这/r, 事/n, 的/uj, 确定/v, 不/d, 下来/v]
[费孝/nr, 通向/v, 人大常委会/nt, 提交/v, 书面/b, 报告/n]
[aaa/en, 分/q, 事实上/l, 发货/v, 丨/null, 和/c, 无/v, 哦/e, 喝/vg, 完/v, 酒/n]
[不好意思/a, 清清爽爽/z]
[长春市/ns, 春节/t, 讲话/n]
[中华人民共和国/ns, 万岁/n, 万岁/n, 万万岁/n]
[检察院/n, 鲍绍/nr, 检察长/n, 就是/d, 在/p, 世/ng, 诸葛/nr, ./m, 像/v, 诸葛亮/nr, 一样/u, 聪明/a]
[长春市/ns, 长春/ns, 药店/n]
[乒乓球拍/n, 卖/v, 完/v, 了/ul]
[计算机/n, 网络管理员/n, 用/p, 虚拟机/userDefine, 实现/v, 了/ul, 手机/n, 游戏/n, 下载/v, 和/c, 开源/v, 项目/n, 的/uj, 管理/vn, 金山/nz, 毒霸/nz]
[长春市/ns, 长春/ns, 药店/n]
[胡锦涛/nr, 与/p, 神/n, 九/m, 航天员/n, 首次/m, 实现/v, 天地/n, 双向/d, 视频/n, 通话/v]
[mysql/en, 不/d, 支持/v, /null, 同台/v, 机器/n, 两个/m, mysql/en, 数据库/n, 之间/f, 做/v, 触发器/n]
[孙建/nr, 是/v, 一个/m, 好/a, 人/n, ./m, 他/r, 和/c, 蔡晴/nr, 是/v, 夫妻/n, 两/m, /null, ,/null, 对于/p, 每/r, 一本/m, 好书/n, 他/r, 都/d, 原意/n, 一一/d, 读取/v, ../m, 他们/r, 都/d, 很/d, 喜欢/v, 元宵/n, ./m, 康燕/nr, 和/c, 他们/r, 住/v, 在/p, 一起/s, ./m, 我/r, 和/c, 马春亮/nr, ,/null, 韩鹏飞/nr, 都/d, 是/v, 好/a, 朋友/n, ,/null, 不/d, 知道/v, 什么/r, 原因/n]
[一年/m, 有/v, 三百六十五个/m, 日出/v, /null, 我/r, 送/v, 你/r, 三百六十五个/m, 祝福/vn, /null, 时钟/n, 每天/r, 转/v, 了/ul, 一千四百四十圈/m, 我/r, 的/uj, 心/n, 每天/r, 都/d, 藏/v, 着/uz, /null, 一千四百四十多个/m, 思念/v, /null, 每/r, 一天/m, 都/d, 要/v, 祝/v, 你/r, 快快乐乐/z, /null, /null, 每/r, 一分钟/m, 都/d, 盼望/v, 你/r, 平平安安/z, /null, 吉祥/n, 的/uj, 光/n, 永远/d, 环绕/v, 着/uz, 你/r, /null, 像/v, 那/r, 旭日东升/l, 灿烂/a, 无比/z, /null]
[学校/n, 学费/n, 要/v, 一次性/d, 交/v, 一千元/m]
[发展/vn, 中国/ns, 家庭/n, 养猪/v, 事业/n]
[安徽省/ns, 是/v, 一个/m, 发展/vn, 中/f, 的/uj, 省/n]
[北京理工大学/nt, 办事处/n]
[审讯室/n, 里/f, 一直/d, 陪/v, 着/uz, 我们/r, 的/uj, 两个/m, 警察/n]
[一只/m, 胳膊/n, 两个/m, 警察/n]
[c/en, 语言/n, 怎么/r, 读写/v, ini/en, 文件/n]
[关卡/n, 编辑器/n]
[eclipse/en, /null, 多/m, 项目/n, 依赖/v]
[苍/nr, 老师/n, 是/v, 一个/m, 好/a, 人/n]
<code></pre>
没有合适的资源?快使用搜索试试~ 我知道了~
Ansj中文分词(强大)
共99个文件
java:73个
dic:12个
jar:3个
5星 · 超过95%的资源 需积分: 34 561 下载量 153 浏览量
2013-06-21
11:08:36
上传
评论 15
收藏 13.32MB ZIP 举报
温馨提示
Ansj中文分词是一款纯Java、主要用于自然语言处理、高精度的中文分词工具,目标是“准确、高效、自由地进行中文分词”。 内容简介:http://www.iteye.com/magazines/102#234 此分词具有自己学习的功能,所以拜托大家不要.乱提交数据.会带坏人家的.说着神秘.其实是一种机器学习动态规划模型!如果你发现此模式分词存在问题.可以看.新词发现.是此分词的初始版本! 此分词保证了准确率,具有人名识别的功能! 此分词结果,具有新词发现,人名识别,机构名识别.也许准确率稍差.但是非常具有应用价值! 献给广大使用lucene要求高召回率的同学.没什么技术含量.但是很实用!
资源推荐
资源详情
资源评论
收起资源包目录
ansj_seg-master.zip (99个子文件)
ansj_seg-master
test
library.properties 71B
org
ansj
test
AccuracyTest.java 1KB
ForeignPersonRecongnitionTest.java 718B
ToAnalysisTest.java 1KB
NameDicPaser.java 895B
UserDefinedAnalysisTest.java 3KB
CSDNBLogTest.java 2KB
NatrueFileTest.java 888B
CompanyTest.java 4KB
TestFile3.java 2KB
IndexDefaultContrast.java 1KB
PersonRecognitionTest.java 4KB
NlpTest.java 658B
Test.java 10KB
MoneyTest.java 1KB
NatureRecognitionTest.java 481B
demo
IndexPaserDemo.java 366B
FileDemo.java 1KB
NewWordFindDemo.java 1KB
DynamicWordDemo.java 919B
Demo.java 588B
NlpDemo.java 5KB
SimpleDemo.java 2KB
NatureDemo.java 643B
BaseAnalysisDemo.java 392B
JianFanZhuanhuanDemo.java 1KB
UserDefineAnalysisDemo.java 1KB
FilterAndUpdateNatureDemo.java 1KB
build.xml 1KB
library
userLibrary
userLibrary.dic 5.05MB
user2.dic 34B
user1.dic 36B
License.txt 11KB
dist
ans_seg-20130615.jar 5.74MB
ansj_lucene_3x_plug.jar 16KB
src
library.properties 71B
org
ansj
dic
arrays.dic 4.02MB
newWord
newWordFilter.dic 9KB
new_word_freq.dic 981KB
englishLibrary.dic 523B
company
company.data 896KB
company.map 2KB
person
person.dic 34KB
asian_name_freq.data 1.04MB
nature
nature.table 6KB
nature.map 662B
numberLibrary.dic 278B
systemLibrary.dic 2.31MB
jianFan.dic 27KB
DicReader.java 700B
bigramdict.dic 5.8MB
domain
Nature.java 777B
Term.java 4KB
BigramEntry.java 748B
TermNatures.java 3KB
NewWord.java 2KB
TermNature.java 2KB
PersonNatureAttr.java 2KB
CompanyNatureAttr.java 1KB
NewWordNatureAttr.java 920B
NumNatureAttr.java 324B
library
name
PersonAttrLibrary.java 2KB
newWord
NewWordAttrLibrary.java 1KB
company
CompanyAttrLibrary.java 2KB
NatureLibrary.java 3KB
InitDictionary.java 7KB
make
MakeLibrary.java 2KB
LibraryToTree.java 7KB
MakeArray.java 7KB
UserDefineLibrary.java 5KB
NgramLibrary.java 2KB
splitWord
analysis
ToAnalysis.java 2KB
BaseAnalysis.java 1KB
NlpAnalysis.java 2KB
IndexAnalysis.java 2KB
Analysis.java 4KB
GetWords.java 1013B
impl
GetWordsImpl.java 3KB
util
FilterModifWord.java 2KB
TermUtil.java 2KB
WordAlert.java 4KB
CollectionUtil.java 735B
MathUtil.java 4KB
newWordFind
NewTerm.java 3KB
PatHashMap.java 3KB
LearnTool.java 5KB
NewWordDetection.java 64KB
MyStaticValue.java 5KB
recognition
NumRecognition.java 2KB
NatureRecognition.java 3KB
CompanyRecogntion.java 3KB
UserDefineRecognition.java 3KB
NewWordRecognition.java 3KB
ForeignPersonRecognition.java 8KB
AsianPersonRecognition.java 4KB
Graph.java 6KB
.gitignore 186B
lib
tree-split-word.jar 27KB
README.md 5KB
共 99 条
- 1
kutekute
- 粉丝: 230
- 资源: 58
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
- 1
- 2
- 3
- 4
- 5
- 6
前往页