hanlpjava包的源代码_hanlp自定义词库如何动态增加资源-CSDN文库

共720个文件

java：681个

txt：28个

md：5个

需积分: 17 36 浏览量 2022-11-22 18:02:11 上传评论收藏 21.52MB ZIP 举报

汉语言处理（NLP，Natural Language Processing）是计算机科学领域的一个重要分支，主要研究如何让计算机理解和处理人类的自然语言。在Java编程中，HanLP是一个广泛应用的开源NLP库，由科大讯飞开发，提供了丰富的中文分词、词性标注、命名实体识别、依存句法分析等NLP任务的解决方案。本压缩包"hanlp java包的源代码"包含了HanLP的1.8.3版本，是学习和研究NLP技术，以及深入理解Java在NLP应用上的优秀资源。 HanLP的源代码结构清晰，设计合理，对于Java开发者来说，阅读源代码可以了解以下关键知识点： 1. **分词**：HanLP使用了高效的双数组字典树（Double-Array Trie）实现，结合动态规划算法（如HMM模型）进行中文分词，同时支持歧义消除和自定义词典功能。通过源代码，我们可以看到如何构建词典树以及如何利用统计模型进行词语切分。 2. **词性标注**：HanLP采用了基于条件随机场（CRF）的词性标注模型，它能够考虑上下文信息，提高词性标注的准确性。源代码中展示了如何训练CRF模型，以及如何在实际应用中进行词性标注。 3. **命名实体识别（NER）**：HanLP使用了Bi-LSTM+CRF的深度学习模型进行命名实体识别，能准确地识别出人名、地名、机构名等。源代码中包括了神经网络模型的搭建和训练过程，对于理解深度学习在NLP中的应用非常有帮助。 4. **依存句法分析**：HanLP采用依存分析模型进行句子结构分析，通过构建有向无环图（DAG）来表示句子的语法结构。源代码中展示了如何构建和解析DAG，以及如何进行依存关系的判断。 5. **并行计算优化**：HanLP利用Java多线程和并发库，实现了高效的并行计算，提升了处理大量文本的速度。通过源代码，我们可以学习到如何在Java中进行高性能的并行处理。 6. **接口设计**：HanLP提供了简洁易用的API，便于开发者集成到自己的项目中。源代码展示了如何设计可扩展和模块化的API，以及如何进行错误处理和日志记录。 7. **数据结构与算法**：HanLP的源代码中还涉及到了多种数据结构（如Trie树、图结构等）和算法（如动态规划、贪心算法、深度学习等），是学习和提升算法能力的好材料。通过对HanLP源代码的深入学习，开发者不仅可以掌握NLP的基本技术和方法，还能提升Java编程技巧，了解并行计算、数据结构与算法的实践应用。对于想要在NLP领域发展的Java程序员，这是一个不可多得的学习资源。

资源推荐

资源详情

资源评论

收起资源包目录

hanlp java包的源代码（720个子文件）

TagPKU98.csv 16KB

.editorconfig 92B

.gitignore 596B

OrganizationDictionary.java 156KB

Pinyin.java 93KB

FeatureExtractor.java 49KB

MDAG.java 49KB

DoubleArrayTrie.java 38KB

MutableDoubleArrayTrieInteger.java 35KB

HanLP.java 33KB

ArcEagerBeamTrainer.java 32KB

Matrix.java 32KB

Segment.java 28KB

NeuralNetworkParser.java 27KB

AhoCorasickDoubleArrayTrie.java 27KB

AbstractLexicalAnalyzer.java 26KB

TaggerImpl.java 24KB

DynamicCustomDictionary.java 24KB

KBeamArcEagerParser.java 24KB

String2PinyinConverter.java 23KB

Args.java 23KB

IOUtil.java 22KB

SegmentTest.java 21KB

Word2VecTraining.java 20KB

TestPinyinGuesser.java 20KB

WordBasedSegment.java 19KB

Options.java 18KB

MDAGNode.java 18KB

Utility.java 18KB

TextUtility.java 17KB

BinTrie.java 17KB

Nature.java 17KB

NeuralNetworkClassifier.java 17KB

Preconditions.java 17KB

Encoder.java 15KB

ClusterAnalyzer.java 15KB

ParseThread.java 14KB

Occurrence.java 14KB

DoubleArrayBuilder.java 14KB

CRFModel.java 14KB

DoubleArrayTrieInteger.java 14KB

LinearModel.java 14KB

CoreDictionary.java 13KB

Mcsrch.java 13KB

Sentence.java 13KB

CoNLLReader.java 13KB

Vertex.java 13KB

State.java 13KB

EncoderFeatureIndex.java 13KB

PerceptronTrainer.java 13KB

MaxEntModel.java 13KB

TestMakePinYinDictionary.java 12KB

DawgBuilder.java 12KB

AveragedPerceptron.java 11KB

WordNet.java 11KB

TestMakeTranslateName.java 11KB

NTDictionaryMaker.java 11KB

SimpleMDAGNode.java 10KB

CRFSegment.java 10KB

DictionaryMaker.java 10KB

MutableDoubleArrayTrie.java 10KB

Viterbi.java 10KB

CoreBiGramTableDictionary.java 10KB

NRDictionaryMaker.java 10KB

CommonSynonymDictionary.java 10KB

HiddenMarkovModel.java 10KB

LbfgsOptimizer.java 10KB

LogLinearModel.java 10KB

FeatureIndex.java 9KB

TextRankSentence.java 9KB

Trie.java 9KB

ByteUtil.java 9KB

CharacterBasedGenerativeModel.java 9KB

CustomDictionary.java 9KB

TestUtility.java 9KB

POSInstance.java 9KB

BaseChineseDictionary.java 9KB

CWSInstance.java 9KB

ViterbiSegment.java 8KB

PinyinDictionary.java 8KB

NShortPath.java 8KB

NShortSegment.java 8KB

PersonDictionary.java 8KB

PosTagUtil.java 8KB

DictionaryMakerTest.java 8KB

PerceptronClassifier.java 8KB

SecondOrderHiddenMarkovModel.java 8KB

TfIdfCounter.java 8KB

Cluster.java 8KB

NaiveDictionaryBasedSegmentation.java 8KB

CRFModelTest.java 8KB

WordNatureDependencyModel.java 8KB

TfIdf.java 8KB

CorpusLoaderTest.java 8KB

Instance.java 8KB

CoNLLLoaderTest.java 8KB

NaiveBayesClassifier.java 7KB

CWSEvaluator.java 7KB

BaseNode.java 7KB

Document.java 7KB

共 720 条

HanLP: Han Language Processing ===== 汉语言处理包 [![Maven Central](https://img.shields.io/maven-central/v/com.hankcs/hanlp?label=maven)](https://mvnrepository.com/artifact/com.hankcs/hanlp) [![GitHub release](https://img.shields.io/github/release/hankcs/HanLP.svg)](https://github.com/hankcs/hanlp/releases) [![License](https://img.shields.io/badge/license-Apache%202-4EB1BA.svg)](https://www.apache.org/licenses/LICENSE-2.0.html) [![Docker Stars](https://img.shields.io/docker/stars/samurais/hanlp-api.svg?maxAge=2592000)](https://hub.docker.com/r/samurais/hanlp-api/) ------ HanLP是一系列模型与算法组成的NLP工具包，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。内部算法经过工业界和学术界考验，配套书籍[《自然语言处理入门》](http://nlp.hankcs.com/book.php)已经出版。目前，基于深度学习的[HanLP 2.x](https://github.com/hankcs/HanLP/tree/doc-zh)已正式发布，次世代最先进的NLP技术，支持包括简繁中英日俄法德在内的104种语言上的联合任务。 HanLP提供下列功能： * 中文分词 * HMM-Bigram（速度与精度最佳平衡；一百兆内存） * [最短路分词](https://github.com/hankcs/HanLP/tree/1.x#1-%E7%AC%AC%E4%B8%80%E4%B8%AAdemo)、[N-最短路分词](https://github.com/hankcs/HanLP/tree/1.x#5-n-%E6%9C%80%E7%9F%AD%E8%B7%AF%E5%BE%84%E5%88%86%E8%AF%8D) * 由字构词（侧重精度，全世界最大语料库，可识别新词；适合NLP任务） * [感知机分词](https://github.com/hankcs/HanLP/wiki/%E7%BB%93%E6%9E%84%E5%8C%96%E6%84%9F%E7%9F%A5%E6%9C%BA%E6%A0%87%E6%B3%A8%E6%A1%86%E6%9E%B6)、[CRF分词](https://github.com/hankcs/HanLP/tree/1.x#6-crf%E5%88%86%E8%AF%8D) * 词典分词（侧重速度，每秒数千万字符；省内存） * [极速词典分词](https://github.com/hankcs/HanLP/tree/1.x#7-%E6%9E%81%E9%80%9F%E8%AF%8D%E5%85%B8%E5%88%86%E8%AF%8D) * 所有分词器都支持： * [索引全切分模式](https://github.com/hankcs/HanLP/tree/1.x#4-%E7%B4%A2%E5%BC%95%E5%88%86%E8%AF%8D) * [用户自定义词典](https://github.com/hankcs/HanLP/tree/1.x#8-%E7%94%A8%E6%88%B7%E8%87%AA%E5%AE%9A%E4%B9%89%E8%AF%8D%E5%85%B8) * [兼容繁体中文](https://github.com/hankcs/HanLP/blob/1.x/src/test/java/com/hankcs/demo/DemoPerceptronLexicalAnalyzer.java#L29) * [训练用户自己的领域模型](https://github.com/hankcs/HanLP/wiki) * 词性标注 * [HMM词性标注](https://github.com/hankcs/HanLP/blob/1.x/src/main/java/com/hankcs/hanlp/seg/Segment.java#L584)（速度快） * [感知机词性标注](https://github.com/hankcs/HanLP/wiki/%E7%BB%93%E6%9E%84%E5%8C%96%E6%84%9F%E7%9F%A5%E6%9C%BA%E6%A0%87%E6%B3%A8%E6%A1%86%E6%9E%B6)、[CRF词性标注](https://github.com/hankcs/HanLP/wiki/CRF%E8%AF%8D%E6%B3%95%E5%88%86%E6%9E%90)（精度高） * 命名实体识别 * 基于HMM角色标注的命名实体识别（速度快） * [中国人名识别](https://github.com/hankcs/HanLP/tree/1.x#9-%E4%B8%AD%E5%9B%BD%E4%BA%BA%E5%90%8D%E8%AF%86%E5%88%AB)、[音译人名识别](https://github.com/hankcs/HanLP/tree/1.x#10-%E9%9F%B3%E8%AF%91%E4%BA%BA%E5%90%8D%E8%AF%86%E5%88%AB)、[日本人名识别](https://github.com/hankcs/HanLP/tree/1.x#11-%E6%97%A5%E6%9C%AC%E4%BA%BA%E5%90%8D%E8%AF%86%E5%88%AB)、[地名识别](https://github.com/hankcs/HanLP/tree/1.x#12-%E5%9C%B0%E5%90%8D%E8%AF%86%E5%88%AB)、[实体机构名识别](https://github.com/hankcs/HanLP/tree/1.x#13-%E6%9C%BA%E6%9E%84%E5%90%8D%E8%AF%86%E5%88%AB) * 基于线性模型的命名实体识别（精度高） * [感知机命名实体识别](https://github.com/hankcs/HanLP/wiki/%E7%BB%93%E6%9E%84%E5%8C%96%E6%84%9F%E7%9F%A5%E6%9C%BA%E6%A0%87%E6%B3%A8%E6%A1%86%E6%9E%B6)、[CRF命名实体识别](https://github.com/hankcs/HanLP/wiki/CRF%E8%AF%8D%E6%B3%95%E5%88%86%E6%9E%90) * 关键词提取 * [TextRank关键词提取](https://github.com/hankcs/HanLP/tree/1.x#14-%E5%85%B3%E9%94%AE%E8%AF%8D%E6%8F%90%E5%8F%96) * 自动摘要 * [TextRank自动摘要](https://github.com/hankcs/HanLP/tree/1.x#15-%E8%87%AA%E5%8A%A8%E6%91%98%E8%A6%81) * 短语提取 * [基于互信息和左右信息熵的短语提取](https://github.com/hankcs/HanLP/tree/1.x#16-%E7%9F%AD%E8%AF%AD%E6%8F%90%E5%8F%96) * [拼音转换](https://github.com/hankcs/HanLP/tree/1.x#17-%E6%8B%BC%E9%9F%B3%E8%BD%AC%E6%8D%A2) * 多音字、声母、韵母、声调 * [简繁转换](https://github.com/hankcs/HanLP/tree/1.x#18-%E7%AE%80%E7%B9%81%E8%BD%AC%E6%8D%A2) * 简繁分歧词（简体、繁体、臺灣正體、香港繁體） * [文本推荐](https://github.com/hankcs/HanLP/tree/1.x#19-%E6%96%87%E6%9C%AC%E6%8E%A8%E8%8D%90) * 语义推荐、拼音推荐、字词推荐 * 依存句法分析 * [基于神经网络的高性能依存句法分析器](https://github.com/hankcs/HanLP/tree/1.x#21-%E4%BE%9D%E5%AD%98%E5%8F%A5%E6%B3%95%E5%88%86%E6%9E%90) * [基于ArcEager转移系统的柱搜索依存句法分析器](https://github.com/hankcs/HanLP/blob/1.x/src/test/java/com/hankcs/demo/DemoDependencyParser.java#L34) * [文本分类](https://github.com/hankcs/HanLP/wiki/%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB%E4%B8%8E%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90) * [情感分析](https://github.com/hankcs/HanLP/wiki/%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB%E4%B8%8E%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90#%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90) * [文本聚类](https://github.com/hankcs/HanLP/wiki/%E6%96%87%E6%9C%AC%E8%81%9A%E7%B1%BB) - KMeans、Repeated Bisection、自动推断聚类数目k * [word2vec](https://github.com/hankcs/HanLP/wiki/word2vec) * 词向量训练、加载、词语相似度计算、语义运算、查询、KMeans聚类 * 文档语义相似度计算 * [语料库工具](https://github.com/hankcs/HanLP/tree/1.x/src/main/java/com/hankcs/hanlp/corpus) - 部分默认模型训练自小型语料库，鼓励用户自行训练。所有模块提供[训练接口](https://github.com/hankcs/HanLP/wiki)，语料可参考[98年人民日报语料库](http://file.hankcs.com/corpus/pku98.zip)。在提供丰富功能的同时，HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布，使用非常方便。默认模型训练自全世界最大规模的中文语料库，同时自带一些语料处理工具，帮助用户训练自己的模型。 ------ ## 项目主页 [《自然语言处理入门》🔥](http://nlp.hankcs.com/book.php)、[随书代码](https://github.com/hankcs/HanLP/tree/v1.7.5/src/test/java/com/hankcs/book)、[在线演示](http://hanlp.com/)、[Python调用](https://github.com/hankcs/pyhanlp)、[Solr及Lucene插件](https://github.com/hankcs/hanlp-lucene-plugin)、[论坛](https://bbs.hankcs.com/)、[论文引用](https://github.com/hankcs/HanLP/wiki/papers)、[更多信息](https://github.com/hankcs/HanLP/wiki)。 ------ ## 下载与配置 ### 方式一、Maven 为了方便用户，特提供内置了数据包的Portable版，只需在pom.xml加入： ```xml <dependency> <groupId>com.hankcs</groupId> <artifactId>hanlp</artifactId> <version>portable-1.8.3</version> </dependency> ``` 零配置，即可使用基本功能（除由字构词、依存句法分析外的全部功能）。如果用户有自定义的需求，可以参考方式二，使用hanlp.properties进行配置（Portable版同样支持hanlp.properties）。 ### 方式二、下载jar、data、hanlp.properties HanLP将数据与程序分离，给予用户自定义的自由。 #### 1、下载：[data.zip](http://nlp.hankcs.com/download.php?file=data) 下载后解压到任意目录，接下来通过配置文件告诉HanLP数据包的位置。 HanLP中的数据分为*词典*和*模型*，其中*词典*是词法分析必需的，*模型*是句法分析必需的。 data │ ├─

评论收藏

内容反馈