Lucene中文分词组件 JE-Analysis 1.5.1

资源大小: 871.39KB
资源类型:其他文档
发布人: diystar   等级:2    
发布日期: 3个月前
Tag: Java Lucene 中文 分词
资源分: 0
下载人数: 884

软件说明:

发布于:http://www.jesoft.cn/posts/list/5.page
1.5.1 —— 2006-01-22
修正细粒度分词错误的问题

1.5.0 —— 2007-01-18
全面支持Lucene 2.0
增强了词典维护的API
增加了商品编码的匹配
增加了Mail地址的匹配
实现了词尾消歧算法第二层的过滤
整理优化了词库

1.4.0 —— 2006-08-21
增加词典的动态扩展能力

1.3.3 —— 2006-07-23
修正无法多次增加词典的问题

1.3.2 —— 2006-07-03
修正细粒度分词错误的问题

1.3.1 —— 2006-06-23
修正在某些情况下分词遗漏的问题

1.3 —— 2006-06-22
实现了词尾消歧算法第一层的过滤
增加日期时间的匹配

1.2.2 —— 2006-06-13
完善了中英文噪声词典

1.2.1 —— 2006-06-10
修正中文数字成语无法识别的问题

1.2 —— 2006-06-08
增加中文数字的匹配(如:二零零六)
数量词采用“n”作为数字通配符
优化词典结构以便修改调整

1.1 —— 2006-06-06
增加扩展词典的静态读取方法

1.0.1 —— 2006-06-02
修正无法识别生僻字的问题

1.0 —— 2006-05-29
支持英文、数字、中文(简体)混合分词
常用的数量和人名的匹配
超过22万词的词库整理
实现正向最大匹配算法
支持分词粒度控制

//采用正向最大匹配的中文分词算法,相当于分词粒度等于0
MMAnalyzer analyzer = new MMAnalyzer();

//参数为分词粒度:当字数等于或超过该参数,且能成词,该词就被切分出来
MMAnalyzer analyzer = new MMAnalyzer(2);

//字符串切分,常用于客户的关键字输入
analyzer.segment(text, separator);


词典维护API(静态方法):

//增加一个新词典,采用每行一个词的读取方式(注意:多线程状态下此时的分词效果将不可预料)
MMAnalyzer.addDictionary(reader);

//增加一个新词
MMAnalyzer.addWord(newWord);

//删除词库中的全部词语(注意:非常危险的操作,在没有加载新的词库前所有的分词都将失效)
MMAnalyzer.clear();

//词库中是否包含该词
MMAnalyzer.contains(String word);

//从词库中移除该词
MMAnalyzer.removeWord(String word);

//当前词库中包含的词语总数
MMAnalyzer.size();

共有评论
网站简介|广告服务|VIP资费标准|银行汇款帐号|网站地图|帮助|联系方式|诚聘英才|English|版权声明|问题报告
北京创新乐知广告有限公司 版权所有, 京 ICP 证 070598 号
世纪乐知(北京)网络技术有限公司 提供技术支持
Copyright©2000-2007, CSDN.NET, All Rights Reserved
GongshangLogo