Lucene中文分词组件 JE-Analysis 1.5.1

3星(超过75%的资源)
所需积分/C币:50 2007-01-22 21:04:53 871KB JAR
8
收藏 收藏
举报

发布于:http://www.jesoft.cn/posts/list/5.page 1.5.1 —— 2006-01-22 修正细粒度分词错误的问题 1.5.0 —— 2007-01-18 全面支持Lucene 2.0 增强了词典维护的API 增加了商品编码的匹配 增加了Mail地址的匹配 实现了词尾消歧算法第二层的过滤 整理优化了词库 1.4.0 —— 2006-08-21 增加词典的动态扩展能力 1.3.3 —— 2006-07-23 修正无法多次增加词典的问题 1.3.2 —— 2006-07-03 修正细粒度分词错误的问题 1.3.1 —— 2006-06-23 修正在某些情况下分词遗漏的问题 1.3 —— 2006-06-22 实现了词尾消歧算法第一层的过滤 增加日期时间的匹配 1.2.2 —— 2006-06-13 完善了中英文噪声词典 1.2.1 —— 2006-06-10 修正中文数字成语无法识别的问题 1.2 —— 2006-06-08 增加中文数字的匹配(如:二零零六) 数量词采用“n”作为数字通配符 优化词典结构以便修改调整 1.1 —— 2006-06-06 增加扩展词典的静态读取方法 1.0.1 —— 2006-06-02 修正无法识别生僻字的问题 1.0 —— 2006-05-29 支持英文、数字、中文(简体)混合分词 常用的数量和人名的匹配 超过22万词的词库整理 实现正向最大匹配算法 支持分词粒度控制 //采用正向最大匹配的中文分词算法,相当于分词粒度等于0 MMAnalyzer analyzer = new MMAnalyzer(); //参数为分词粒度:当字数等于或超过该参数,且能成词,该词就被切分出来 MMAnalyzer analyzer = new MMAnalyzer(2); //字符串切分,常用于客户的关键字输入 analyzer.segment(text, separator); 词典维护API(静态方法): //增加一个新词典,采用每行一个词的读取方式(注意:多线程状态下此时的分词效果将不可预料) MMAnalyzer.addDictionary(reader); //增加一个新词 MMAnalyzer.addWord(newWord); //删除词库中的全部词语(注意:非常危险的操作,在没有加载新的词库前所有的分词都将失效) MMAnalyzer.clear(); //词库中是否包含该词 MMAnalyzer.contains(String word); //从词库中移除该词 MMAnalyzer.removeWord(String word); //当前词库中包含的词语总数 MMAnalyzer.size();

...展开详情
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
bibylove 现在直接用Lucene的较少,大部分用es
2020-05-24
回复
qq_21612701 这个很好用!
2015-01-11
回复
jiefox 还不错,可以使用
2014-12-17
回复
zhuwenxiangzwx 正在研究,,谢谢分享
2014-10-31
回复
v_young_v 已经在使用了,资源不错
2014-10-02
回复
lelecoo 谢谢分享,能用
2014-04-16
回复
penergy 可以使用,正在研究!!!
2013-12-09
回复
zxj770109 功能横强大,需哟啊慢慢消化
2013-06-05
回复
weishang Verygood,挺不错的,可以用
2013-05-23
回复
Luoxinran 挺好,用了还可以。。
2013-02-23
回复
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
关注 私信
上传资源赚钱or赚积分
最新推荐
Lucene中文分词组件 JE-Analysis 1.5.1 50积分/C币 立即下载
1/0