下载 >  开发技术 >  Web开发 > ShuzhenAnalyzer中文分词器

ShuzhenAnalyzer中文分词器 评分:

ShuzhenAnalyzer是一款基于字典的中文分词器,您现在看到的是1.1.4版本 此版本特性及功能: 1、分词采用完全匹配(自命名)方式,也就是只要是符合字典系统中条目的就全部匹配出来 2、基于字典系统分词,字典系统的存放介质由使用者自由配置,既可以将字典系统只配置在JDBM系统中,也可以将字典系统只配置在内存系统中,也可以两者结合在一起使用, 当两者结合一起使用的时候,优先调用内存字典系统,当且仅当在内存字典系统中没有找到匹配项时才调用JDBM字典系统; 3、字典系统条目数量理论上可以趋于无穷多而绝不会出现内存溢出现象(在使用者理性配置的前提下,因为如果使用者配置为字典系统只采用内存,而条数过多情况下是会内存溢出的) 4、即使仅仅采用JDBM字典 系统,索引创建及搜索速度受字典条目数量影响也是非常小的,速度也很快 5、可以很方便对字典系统进行管理,管理功能如下: 5.1、往字典系统中增加单个条目 5.2、往字典系统中增加多个条目 5.3、利用txt文件往字典系统中批量增加多个条目 5.4、删除字典系统中指定的某一个条目 5.5、判断字典系统中是否已存在某一条目 6、对搜索词提供了两种处理方式,可以更好地应用在不同需求的系统中,提高搜索结果的质量 如:搜索词为:1949年10月1日,中华人民共和国在\"北京\"宣-告成立 那么用两种方式分别对此搜索词进行处理过的结果如下: 第一种处理后的结果:1949 10 1 中华 中华人民 中华人民共和国 华人 人民 人民共和国 共和 共和国 "北京" -告成 成立 第二种处理后的结果:1949 年 10 月 1 日 中华 中华人民 中华人民共和国 华人 人民 人民共和国 共和 共和国 在 "北京" 宣 -告成 成立 7、去掉了分词时的英文停留词,因为目前感觉没有多大意义 8、分词时严格按照分词标准来进行,在与类似HighLighter等高亮显示器使用时,能准确高亮显示出命中,这一点避免了Google搜索中高亮显示的BUG 使用说明: 1、解压开压缩包后,可以见到两个jar包:ShuzhenAnalyzer-1.1.4.jar和jdbm-1.0.jar,将这两个jar包导入到你的系统中即可(ShuzhenAnalyzer-1.1.4.jar的目录结构为net/shuzhen/*.class) 2、不论是否采用字典系统,在调用分词器的时候,均可以这种形式,例如:IndexWriter writer = new IndexWriter(path,new ShuzhenAnalyzer(), true); 3、配置文件为:shuzhen.properties ,从1.1.4版本开始支持相对路径配置(所有配置文件均存放在WEB-INF/classes,也就是类根目录下),以下是shuzhen.properties里面的配置例子: 3.1、pDict=dict/dict.txt 配置字典文件dict.txt的存放位置,里面存放的字典条目会存入到jdbm中,如果配置了内存字典系统,也会导入到内存中, 实际分词时,是基于jdbm字典系统或内存字典系统而不是txt文件,左边的pDict不能改变,右边的路径表示为:WEB-INF/classes/dict/dict.txt,存放路径只要是在WEB-INF/classes下可以自定义 3.2、mDict=dict/mdict.txt 批量导入字典条目时用到,格式与dict.txt一样,左边的mDict不能改变,右边的存放路径如上表示为WEB-INF/classes/dict/mdict.txt,存放路径只要是在WEB-INF/classes下可以自定义 3.3、kPath=keysgroup/keysgroup 字典系统存放位置,也就是jdbm系统的存放位置,左边的kPath不能变,右边的keysgroup/keysgroup也不能变,表示WEB-INF/classes/keysgroup,不能自定义修改 3.4、shuzhen.properties的存放位置:存放位置为系统的类根目录,比如web系统的类根目录为:WEB-INF/classes,则将shuzhen.properties放在WEB-INF/classes下 4、配置是否采用内存字典系统或采用的话导入多少个条目到内存字典系统中 在shuzhen.properties中进行配置,配置项为maxKeyNumMemory,其值含义为: maxKeyNumMemory=0 表示不采用内存字典系统 maxKeyNumMemory=-1 表示将dict.txt中的字典条目全部导入到内存字典系统中 maxKeyNumMemory为大于0的整数,则表示要导入到内存字典系统中的字典条目数量 maxKeyNumMemory除上面以外的任何值包括为空都表示不采用内存字典系统 5、系统自带有一个dict.txt,里面预录了有220199个字典条目 6、此版本用到了jdbm包,在1.1.4版本中包含了jdbm包,但您也可以自行去下载JDBM,其下载及介绍页面见:http://www.zihou.com/bbs/read.php?tid-34.html ****关于功能使用Demo,请参见随带的ShuzhenDemo.java****
...展开详情收缩
2009-06-11 上传大小:815KB
立即下载 开通VIP
分享
收藏 (1) 举报

评论 共1条

tbs999999 JAVA版本的啊
2012-11-13
回复
分词器的最新版本和相关资讯

* 关于shuzhen分词器的最新版本和相关资讯 * ShuzhenAnalyzer是一款基于字典的中文分词器,此版本是1.1.7 * 中文名称是:淑珍分词器(又称Shuzhen分词器) * 英文名称是:ShuzhenAnalyzer

立即下载
c#中文分词器.rar

c#中文分词器.rarc#中文分词器.rarc#中文分词器.rarc#中文分词器.rarc#中文分词器.rarc#中文分词器.rarvvc#中文分词器.rarc#中文分词器.rarc#中文分词器.rarc#中文分词器.rarc#中文分词器.rar

立即下载
es中文分词器ik

es中文分词器ikes中文分词器ikes中文分词器ikes中文分词器ikes中文分词器ik

立即下载
IKAnalyzer2012_u6中文分词器jar包

IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包

立即下载
IK中文分词器资源包

IK中文分词器资源包

立即下载
solr4.X所用IKAnalyzer中文分词器jar包

solr4.X所用中文分词器jar,亲测可用,无需额外配置,解压后替换原有分词器jar及相关文件即可,文件及分词器说明解压后可见

立即下载
常用中文分词器及地址链接

列举了当前常用的中文分词器及其地址链接,不用再进行网络查找,直接可以进行使用。

立即下载
中文分词器工具包下载(配置+Jar包)

IK配置+两个Jar包,实现与Solr 7.2.1版本的对接,对中文语句进行分词处理,可自行扩展词库字段ext.dict以及停止词字典dict

立即下载
IKAnalyzer中文分词器

solr5.5.4对应的中文分词器下载,如果solr为tomcat方式部署,下载后解压该压缩文件,将下面的jar文件复制到solr项目的lib目录下,将里面的配置其他配置文件复制到classes目录下即可。

立即下载
ik中文分词器,适用于solr5.5

ik中文分词器,适用于solr5.5,亲测可用

立即下载
IKAnalyzer 2012FF_hf1 中文分词器

IKAnalyzer 2012FF_hf1 中文分词器 IKAnalyzer 2012FF_hf1 中文分词器

立即下载
刨丁解羊中文分词器-主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词

刨丁解羊中文分词器,主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词,支持繁体中文分词、简体中文分词、英文分词,是制作通用搜索引擎和垂直搜索引擎的核心组件。该软件在普通PC机器上测试显示:TXT格式正文分词速度约为3000万字/分钟,网页分词速度约为277.8个网页/秒。该软件采用基础词库(63万词语)+扩展词库(用户可手工添加新词)。DLL及OCX调用请联系QQ(601069289)。

立即下载
IKAnalyzer中文分词器V3.1.1使用手册

IKAnalyzer中文分词器V3.1.1使用手册 IKAnalyzer中文分词器V3.1.1使用手册

立即下载
elasticsearch的ik中文分词器

elasticsearch的ik中文分词器,安装好elasticsearch后还需安装中文分词器

立即下载
中文分词器

1.基于 trie 树结构实现高效词图扫描 2.生成所有切词可能的有向无环图 DAG 3.采用动态规划算法计算最佳切词组合 4.基于 HMM 模型,采用 Viterbi (维特比)算法实现未登录词识别

立即下载
IKAnalyzer-2012.jar

中文分词器

立即下载
Ik中文分词器6.3.0版

Ikik-analyzer-solr-6.3.0 中文分词器6.3.0版本和相关配置文件

立即下载
IK-Analyzer-Final

IK-Analyzer中文分词器

立即下载
hanlp jar 包

中文分词器,hanlp

立即下载
IK分词器jar包,亲测适用于solr5.5.1+jdk7

IK分词器jar包,亲测适用于solr5.5.1+jdk7。为什么不能提交免费资源了,选资源分的时候最少也是2分

立即下载

热点文章

img

spring mvc+mybatis+mysql+maven+bootstrap 整合实现增删查改简单实例.zip

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
点击完成任务获取下载码
输入下载码
为了良好体验,不建议使用迅雷下载
img

ShuzhenAnalyzer中文分词器

会员到期时间: 剩余下载个数: 剩余C币: 剩余积分:0
为了良好体验,不建议使用迅雷下载
VIP下载
您今日下载次数已达上限(为了良好下载体验及使用,每位用户24小时之内最多可下载20个资源)

积分不足!

资源所需积分/C币 当前拥有积分
您可以选择
开通VIP
4000万
程序员的必选
600万
绿色安全资源
现在开通
立省522元
或者
购买C币兑换积分 C币抽奖
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
为了良好体验,不建议使用迅雷下载
确认下载
img

资源所需积分/C币 当前拥有积分 当前拥有C币
3 0 0
为了良好体验,不建议使用迅雷下载
VIP和C币套餐优惠
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
您的积分不足,将扣除 10 C币
为了良好体验,不建议使用迅雷下载
确认下载
下载
您还未下载过该资源
无法举报自己的资源

兑换成功

你当前的下载分为234开始下载资源
你还不是VIP会员
开通VIP会员权限,免积分下载
立即开通

你下载资源过于频繁,请输入验证码

您因违反CSDN下载频道规则而被锁定帐户,如有疑问,请联络:webmaster@csdn.net!

举报

若举报审核通过,可返还被扣除的积分

  • 举报人:
  • 被举报人:
  • *类型:
    • *投诉人姓名:
    • *投诉人联系方式:
    • *版权证明:
  • *详细原因: