/**
* <p>Copyright: Copyright (C) 2008 www.zihou.com & www.shuzhen.net. All rights reserved.</p>
* @author <a href="mailto:bbmonkey62@163.com">bbmonkey62</a>
*
*
* 关于shuzhen分词器的最新版本和相关资讯请访问:www.shuzhen.net
* 另外通过http://www.zihou.com/bbs/thread.php?fid-12.html也可以获得
*
*
* ShuzhenAnalyzer是一款基于字典的中文分词器,您现在看到的是1.1.3版本
*
*
*/
此版本特性及功能:
1、基于字典系统分词,采用了JDBM文件数据库系统来作为字典系统,字典系统数量理论上可以趋于无穷多而绝不会出现内存溢出现象
2、在1中的前提下,索引创建及搜索速度受字典条目数量影响小到可以忽略不计
3、可以很方便对字典系统进行管理,管理功能如下:
3.1、往字典系统中增加单个条目
3.2、往字典系统中增加多个条目
3.3、利用txt文件往字典系统中批量增加多个条目
3.4、删除字典系统中指定的某一个条目
4、对搜索词提供了两种处理方式,可以更好地应用在不同需求的系统中,提高搜索结果的质量
如:字典条目中如果存在 功夫熊猫、有趣 两个条目,搜索词为:功夫熊猫是很有趣的一部电影,
那么用两种方式分别对此搜索词进行处理过的结果如下:
第一种处理后的结果:功夫熊猫 是 很 有趣 的 一 部 电 影
第二种处理后的结果:功夫熊猫 有趣
使用说明:
1、解压开压缩包后,可以见到两个jar包:ShuzhenAnalyzer-1.1.3.jar和jdbm-1.0.jar,将这两个jar包导入到你的系统中即可(ShuzhenAnalyzer-1.1.3.jar的目录结构为net/shuzhen/*.class)
2、不论是否采用字典系统,在调用分词器的时候,均可以这种形式,例如:IndexWriter writer = new IndexWriter(path,new ShuzhenAnalyzer(), true);
3、配置文件dict.properties
3.1、pDict=D:/project/dict/dict.txt
配置字典文件dict.txt的存放位置,里面存放的字典条目会存入到jdbm中,实际分词时,是基于jdbm而不是txt文件,左边的pDict不能改变,右边的存放路径可以自定义
3.2、mDict=D:/project/dict/mdict.txt
批量导入字典条目时用到,格式与dict.txt一样,左边的mDict不能改变,右边的存放路径可以自定义
3.3、kPath=D:/project/keysgroup/keysgroup
字典系统存放位置,也就是jdbm系统的存放位置,左边的kPath不能变,右边的keysgroup/keysgroup也不能变,D:/project可以自己修改,另外keysgroup目录不用自己创建,系统会自动创建好,建议将此目录设置在系统的根目录下
3.4、dict.properties的存放位置:存放位置为系统的类根目录,比如web系统的类根目录为:d:/project/WEB-INF/classes,则将dict.properties放在d:/project/WEB-INF/classes下
4、系统自带会有一个dict.txt,里面预录了有220199个字典条目
5、对搜索词的处理
如:字典条目中如果存在 功夫熊猫、有趣 两个条目,搜索词为:功夫熊猫是很有趣的一部电影,那么用两种方式分别对此搜索词进行处理过的结果如下:
String key = "功夫熊猫是很有趣的一部电影";
第一种处理:
key = KeysGroup.segmentKeyExact(key);
输出为:功夫熊猫 有趣
第一种处理
key = KeysGroup.segmentKeyFuzzy(key);
输出为:功夫熊猫 是 很 有趣 的 一 部 电 影
注:在对搜索词进行处理时忽略了以下几个特殊符合:!、|、-、",主要是为了满足关键词必须有特殊字符的要求,比如在google搜索中,用"关键词"表示结果中必须包含双引号包含的关键词,
在lucene中,用"关键词1 -关键词2"表示搜索结果中包含关键词1但不包含关键词2等
6、此版本用到了jdbm包,在1.1.3版本中包含了jdbm包,但您也可以自行去下载JDBM,其下载及介绍页面见:http://www.zihou.com/bbs/read.php?tid-34.html
关于功能使用Demo,请参见随带的ShuzhenDemo.java
历史版本记录
1.0.0的下载地址可参见:http://www.zihou.com/bbs/htm_data/12/0808/35.html
1.1.0的下载地址可参见:http://www.zihou.com/bbs/htm_data/12/0808/17.html
1.1.2的下载地址可参见:http://www.zihou.com/bbs/htm_data/12/0808/36.html
* ShuzhenAnalyzer不适用范围:
* 1、将此分词器用于销售营利
* 2、反编译且更改其类的名称
* 如果违反上述不适用的两条,作者将保留追究法律责任的权力
*
* 更多中文分词技术方面的资料请关注:http://www.zihou.com/bbs/thread.php?fid-2.html
* 更多中文分词器的下载请关注:http://www.zihou.com/bbs/thread.php?fid-12.html
关于编写者
作者:bbmonkey62
从事互联网行业,目前在北京一家互联网公司任软件工程师
作者联系方式
可在论坛留言:http://www.zihou.com/bbs/thread.php?fid-14.html
作者java技术博客
http://www.blogjava.net/bbmonkey62
更详细的介绍请访问:www.shuzhen.net
ShuzhenAnalyzer-1.1.3
1星 需积分: 10 35 浏览量
2008-09-21
09:01:00
上传
评论
收藏 809KB RAR 举报
yuanjian0211
- 粉丝: 2
- 资源: 5
最新资源
- 论文(最终)_20240430235101.pdf
- 基于python编写的Keras深度学习框架开发,利用卷积神经网络CNN,快速识别图片并进行分类
- 最全空间计量实证方法(空间杜宾模型和检验以及结果解释文档).txt
- 5uonly.apk
- 蓝桥杯Python组的历年真题
- 2023-04-06-项目笔记 - 第一百十九阶段 - 4.4.2.117全局变量的作用域-117 -2024.04.30
- 2023-04-06-项目笔记 - 第一百十九阶段 - 4.4.2.117全局变量的作用域-117 -2024.04.30
- 前端开发技术实验报告:内含4四实验&实验报告
- Highlight Plus v20.0.1
- 林周瑜-论文.docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈