Jcseg中文分词器v2.6.3.zip资源-CSDN文库

共207个文件

java：143个

lex：29个

xml：8个

版权申诉

毕业设计论文

建站模板

149 浏览量 2024-03-25 20:34:55 上传评论收藏 4.97MB ZIP 举报

《Jcseg中文分词器 v2.6.3.zip》是一个包含源代码和相关文档的压缩包，专为处理中文文本分词而设计。在本文中，我们将深入探讨Jcseg分词器的主要功能、原理以及其在IT领域的应用。 Jcseg（Java Chinese Segmenter）是一个高效的开源中文分词组件，它主要由Java编写，因此适用于各种Java平台的项目。中文分词是自然语言处理（NLP）中的关键步骤，旨在将连续的汉字序列分割成有意义的词语，以便进行后续的文本分析和处理任务，如信息检索、情感分析和机器翻译等。 Jcseg v2.6.3的核心特性包括： 1. **高性能**：Jcseg利用高效的算法和数据结构，确保在处理大量文本时具有快速的分词速度。 2. **多功能**：支持多种分词模式，包括精确模式、全模式、简明模式和搜索引擎模式，以适应不同的应用场景。 3. **自学习能力**：Jcseg内置了自学习功能，可以通过用户反馈的正确分词结果不断优化分词性能。 4. **丰富的扩展性**：除了基本的分词功能，还提供了关键词提取、短语提取、新词发现等功能，方便进行更复杂的文本处理。 5. **良好的API设计**：提供了简洁易用的Java API，使得开发者可以轻松地将Jcseg集成到自己的项目中。在压缩包内，`jcseg-v2.6.3-release`是Jcseg的源代码目录，包含了项目的源文件、配置文件和库依赖。开发者可以通过阅读源代码来理解其内部工作原理，或者进行二次开发和定制。 `说明.htm`文件通常包含软件的使用指南、安装步骤和常见问题解答等内容。对于Jcseg，这份文档可能详细介绍了如何配置和运行分词器，如何调用API进行分词操作，以及如何处理特定的分词问题。在IT领域，尤其是毕业设计论文或计算机案例中，Jcseg分词器可以作为基础工具，帮助学生和研究者进行文本预处理，提升项目的效果。同时，它也是建站模板中的理想选择，因为网站内容的搜索和推荐系统往往需要依赖高质量的中文分词。 Jcseg中文分词器v2.6.3是一个强大且灵活的工具，广泛应用于文本挖掘、搜索引擎优化、智能问答系统等多个领域。了解并掌握它的使用方法，对于提升中文文本处理能力至关重要。通过深入学习Jcseg，开发者可以更好地应对中文信息处理的挑战，实现更加智能化的文本分析应用。

资源推荐

资源详情

资源评论

收起资源包目录

Jcseg中文分词器 v2.6.3.zip （207个子文件）

style.css 774B

EnWords.csv 4.5MB

.gitignore 207B

说明.htm 4KB

index.html 4KB

Segmenter.java 57KB

JSONObject.java 56KB

NLPSeg.java 36KB

JSONArray.java 31KB

ADictionary.java 28KB

Entity.java 21KB

JcsegTest.java 17KB

STConverter.java 17KB

SegmenterConfig.java 17KB

JSONML.java 17KB

XML.java 16KB

StringUtil.java 15KB

Zipper.java 14KB

TextRankSummaryExtractor.java 14KB

JcsegServer.java 14KB

JSONTokener.java 13KB

KeywordsExtractorTest.java 13KB

Kim.java 13KB

EntityFormat.java 12KB

Huff.java 12KB

Word.java 12KB

Sort.java 11KB

DicMerge.java 11KB

JSONWriter.java 10KB

XMLTokener.java 10KB

CDL.java 10KB

Unzipper.java 9KB

TextRankKeyphraseExtractor.java 8KB

NGramSeg.java 8KB

IStringBuffer.java 8KB

Controller.java 7KB

JSONzip.java 7KB

DetectSeg.java 7KB

JSONWriter.java 6KB

Cookie.java 6KB

NumericUtil.java 6KB

MostSeg.java 6KB

Keep.java 6KB

HTTP.java 6KB

SentenceSeg.java 5KB

DelimiterSeg.java 5KB

AnalysisJcsegPlugin.java 5KB

ComplexSeg.java 5KB

AnalysisJcsegPlugin.java 5KB

TimeUtil.java 5KB

ContextRouter.java 5KB

TextRankKeywordsExtractor.java 5KB

DicConverter.java 5KB

LRUCache.java 5KB

BitInputStream.java 4KB

BitOutputStream.java 4KB

MMSegFilter.java 4KB

DictionaryFactory.java 4KB

ISegment.java 4KB

ArrayUtil.java 4KB

HashMapDictionary.java 4KB

Chunk.java 3KB

StandardHandler.java 3KB

UriEntry.java 3KB

ServerConfig.java 3KB

CookieList.java 3KB

JSONStringer.java 3KB

JcsegController.java 3KB

SummaryExtractorTest.java 3KB

IWord.java 3KB

KeywordsExtractor.java 3KB

JcsegTokenizer.java 3KB

KeyphraseExtractor.java 3KB

IHashQueue.java 3KB

JcsegResourceHandler.java 3KB

JcsegGlobalResource.java 3KB

ContextRouterTest.java 3KB

KeyphraseController.java 3KB

SummaryExtractor.java 3KB

Property.java 3KB

IDictionary.java 3KB

KeywordsController.java 3KB

SentenceController.java 3KB

SummaryController.java 3KB

TokenizerController.java 3KB

SpeedTest.java 3KB

HTTPTokener.java 2KB

SegKit.java 2KB

DynamicRestRouter.java 2KB

IPushbackReader.java 2KB

Bootstrap.java 2KB

IntArrayList.java 2KB

JcsegServerConfig.java 2KB

IIntQueue.java 2KB

PostMortem.java 2KB

JcsegTokenizerFactory.java 2KB

JcsegAnalyzerProvider.java 2KB

KeyphraseExtractorTest.java 2KB

JcsegAnalyzerProvider.java 2KB

ByteCharCounter.java 2KB

共 207 条

# **Jcseg**是什么？ **Jcseg**是基于mmseg算法的一个轻量级中文分词器，同时集成了关键字提取，关键短语提取，关键句子提取和文章自动摘要等功能，并且提供了一个基于Jetty的web服务器，方便各大语言直接http调用，同时提供了最新版本的lucene, solr, elasticsearch/opensearch的分词接口！**Jcseg**自带了一个 jcseg.properties文件用于快速配置而得到适合不同场合的分词应用，例如：最大匹配词长，是否开启中文人名识别，是否追加拼音，是否追加同义词等！ # **Jcseg**核心功能： - [x] 中文分词：mmseg算法 + **Jcseg** 独创的优化算法，七种切分模式。 - [x] 关键字提取：基于textRank算法。 - [x] 关键短语提取：基于textRank算法。 - [x] 关键句子提取：基于textRank算法。 - [x] 文章自动摘要：基于BM25+textRank算法。 - [x] 自动词性标注：基于词库+（统计歧义去除计划），目前效果不是很理想，对词性标注结果要求较高的应用不建议使用。 - [x] 命名实体标注：基于词库+（统计歧义去除计划），电子邮件，网址，大陆手机号码，地名，人名，货币，datetime时间，长度，面积，距离单位等。 - [x] Restful api：嵌入jetty提供了一个绝对高性能的server模块，包含全部功能的http接口，标准化json输出格式，方便各种语言客户端直接调用。 # **Jcseg**中文分词： ### 七种切分模式： - [x] 简易模式：FMM算法，适合速度要求场合。 - [x] 复杂模式：MMSEG四种过滤算法，具有较高的歧义去除，分词准确率达到了98.41%。 - [x] 检测模式：只返回词库中已有的词条，很适合某些应用场合。 - [x] 最多模式：细粒度切分，专为检索而生，除了中文处理外（不具备中文的人名，数字识别等智能功能）其他与复杂模式一致（英文，组合词等）。 - [x] 分隔符模式：按照给定的字符切分词条，默认是空格，特定场合的应用。 - [x] NLP模式：继承自复杂模式，更改了数字，单位等词条的组合方式，增加电子邮件，大陆手机号码，网址，人名，地名，货币等以及无限种自定义实体的识别与返回。 - [x] n-gram模式：CJK和拉丁系字符的通用n-gram切分实现。 ### 分词功能特性： - [x] 支持自定义词库。在lexicon文件夹下，可以随便添加/删除/更改词库和词库内容，并且对词库进行了分类。 - [x] 支持词库多目录加载. 配置lexicon.path中使用';'隔开多个词库目录. - [x] 词库分为简体/繁体/简繁体混合词库: 可以专门适用于简体切分, 繁体切分, 简繁体混合切分, 并且可以利用下面提到的同义词实现,简繁体的相互检索, **Jcseg**同时提供了词库两个简单的词库管理工具来进行简繁体的转换和词库的合并。 - [x] 中英文同义词追加/同义词匹配 + 中文词条拼音追加．词库整合了《现代汉语词典》和cc-cedict辞典中的词条，并且依据cc-cedict词典为词条标上了拼音，依据《中华同义词词典》为词条标上了同义词(尚未完成)。更改jcseg.properties配置文档可以在分词的时候加入拼音和同义词到分词结果中。 - [x] 中文数字和中文分数识别，例如："一百五十个人都来了，四十分之一的人。"中的"一百五十"和"四十分之一"。并且 **Jcseg**会自动将其转换为阿拉伯数字加入到分词结果中。如：150， 1/40。 - [x] 支持中英混合词和英中混合词的识别(维护词库可以识别任何一种组合)。例如：B超, x射线, 卡拉ok, 奇都ktv, 哆啦a梦。 - [x] 支持英文的类中文切分，同样使用mmseg算法来消除歧义，例如：“openarkcompiler”会被切分成：“open ark compiler”，该功能也可以被关闭。 - [x] 更好的拉丁支持，电子邮件，域名，小数，分数，百分数，字母和标点组合词（例如C++, c#）的识别。 - [x] 自定义切分保留标点. 例如: 保留&, 就可以识别k&r这种复杂词条。 - [x] 复杂英文切分结果的二次切分: 可以保留原组合，同时可以避免复杂切分带来的检索命中率下降的情况，例如QQ2013会被切分成: qq2013/ qq/ 2013, chenxin619315@gmail.com会被切分成: chenxin619315@gmail.com/ chenxin/ 619315/ gmail/ com。 - [x] 支持阿拉伯数字/小数/中文数字基本单字单位的识别，例如2012年，1.75米，38.6℃，五折，并且 **Jcseg**会将其转换为“5折”加入分词结果中。 - [x] 智能圆角半角, 英文大小写转换。 - [x] 特殊字母识别：例如：Ⅰ，Ⅱ；特殊数字识别：例如：①，⑩。 - [x] 配对标点内容提取：例如：最好的Java书《java编程思想》，‘畅想杯黑客技术大赛’，被《,‘,“,『标点标记的内容。(1.6.8版开始支持)。 - [x] 智能中文人名/外文翻译人名识别。中文人名识别正确率达94%以上。（中文人名可以维护lex-lname.lex，lex-dname-1.lex，lex-dname-2.lex来提高准确率），(引入规则和词性后会达到98%以上的识别正确率)。 - [x] 自动中英文停止词过滤功能（需要在jcseg.properties中开启该选项，lex-stopwords.lex为停止词词库）。 - [x] 词库更新自动加载功能, 开启一个守护线程定时的检测词库的更新并且加载（**注意需要有对应词库目录下的的lex-autoload.todo文件的写入权限**）。 - [x] 自动词性标注（目前基于词库）。 - [x] 自动实体的识别，默认支持：电子邮件，网址，大陆手机号码，地名，人名，货币等；词库中可以自定义各种实体并且再切分中返回。 # **Jcseg**快速体验： #### 终端测试： 1. cd到 **Jcseg**根目录。 2. ant all(或者使用maven编译) 3. 运行：java -jar jcseg-core-{version}.jar 4. 你将看到如下的终端界面 5. 在光标处输入文本开始测试(输入:seg_mode参数切换可以体验各种切分算法) ``` +--------Jcseg chinese word tokenizer demo-------------------+ |- @Author chenxin<chenxin619315@gmail.com> | |- :seg_mode : switch to specified tokenizer mode. | |- (:complex,:simple,:most,:detect,:delimiter,:NLP,:ngram) | |- :keywords : switch to keywords extract mode. | |- :keyphrase : switch to keyphrase extract mode. | |- :sentence : switch to sentence extract mode. | |- :summary : switch to summary extract mode. | |- :help : print this help menu. | |- :quit : to exit the program. | +------------------------------------------------------------+ jcseg~tokenizer:complex>> ``` #### 测试样板： ##### 分词文本 ``` 歧义和同义词:研究生命起源，混合词: 做B超检查身体，x射线本质是什么，今天去奇都ktv唱卡拉ok去，哆啦a梦是一个动漫中的主角，单位和全角: 2009年８月６日开始大学之旅，岳阳今天的气温为38.6℃, 也就是101.48℉, 中文数字/分数: 你分三十分之二, 小陈拿三十分之五,剩下的三十分之二十三全部是我的，那是一九九八年前的事了，四川麻辣烫很好吃，五四运动留下的五四精神。笔记本五折包邮亏本大甩卖。人名识别: 我是陈鑫，也是jcseg的作者，三国时期的诸葛亮是个天才，我们一起给刘翔加油，罗志高兴奋极了因为老吴送了他一台笔记本。外文名识别：冰岛时间7月1日，正在当地拍片的汤姆·克鲁斯通过发言人承认，他与第三任妻子凯蒂·赫尔墨斯（第一二任妻子分别为咪咪·罗杰斯、妮可·基德曼）的婚姻即将结束。配对标点: 本次『畅想杯』黑客技术大赛的得主为电信09-2BF的张三，奖励C++程序设计语言一书和【畅想网络】的『PHP�

评论收藏

内容反馈

版权申诉