mynlp：一个生产级，高性能，预定，可扩展的中文NLP工具包。（中文分词，平均感知机，fastText，拼音，新词发现，分词纠错，BM25，人名识别，命名实体，自定义词典）

共421个文件

java：228个

kt：139个

png：10个

nlp

segment

pinyin

fasttext

需积分: 43 76 浏览量 2021-02-03 15:23:27 上传评论收藏 1.16MB ZIP 举报

《mynlp：打造高效中文自然语言处理利器》 mynlp是一款专为生产环境设计的中文自然语言处理（NLP）工具包，它具备高性能、预训练模型、可扩展性以及用户友好的特性，旨在简化开发者的NLP任务。这款工具包涵盖了多个关键的NLP任务，包括中文分词、平均感知机模型、fastText模型、拼音处理、新词发现、分词纠错、BM25信息检索、人名识别、命名实体识别以及自定义词典功能，为开发者提供了一站式的解决方案。中文分词是NLP的基础，mynlp提供了高效的分词算法，能够准确地将连续的汉字序列分割成具有语义意义的词语，这对于后续的文本分析至关重要。同时，自定义词典功能允许用户根据特定领域或项目需求添加自己的词汇表，提高了分词的准确性。平均感知机模型在mynlp中用于实现词性标注和短语识别，这是一种监督学习方法，能够快速训练并应用于新的数据集。而fastText则是一种基于词向量的深度学习模型，它可以学习到单词的分布式表示，有效捕捉词的语义信息，对于文本分类、情感分析等任务有着出色的表现。拼音处理是mynlp的另一大亮点，它支持将汉字转换为拼音，这对于语音合成、输入法设计等场景非常有用。新词发现功能则是通过统计和学习语言模型来识别文本中的新出现的词汇，适应互联网时代快速变化的语言现象。分词纠错是mynlp的一个实用特性，它能自动检测并修正分词错误，提升文本处理的可靠性。BM25信息检索模型则用于文本相似度计算，常用于搜索引擎或推荐系统，能够快速找出与查询最相关的文档。人名识别和命名实体识别是NLP中的命名实体识别（NER）任务，mynlp能够识别文本中的个人姓名、组织机构、地理位置等实体，这对于信息提取、知识图谱构建等领域有重大价值。 mynlp以其全面的功能和高效性能，为开发者在处理中文文本时提供了强大的工具，无论是基础的文本处理还是复杂的语义理解，都能得心应手。同时，由于其开源性质，开发者可以深入研究源代码，对其进行二次开发和定制，进一步满足个性化需求。如果你正在寻找一个可靠的中文NLP工具包，mynlp无疑是一个值得考虑的选择。

资源推荐

资源详情

资源评论

收起资源包目录

mynlp：一个生产级，高性能，预定，可扩展的中文NLP工具包。（中文分词，平均感知机，fastText，拼音，新词发现，分词纠错，BM25，人名识别，命名实体，自定义词典）（421个子文件）

started.adoc 8KB

fasttext.adoc 5KB

README.adoc 3KB

other.adoc 3KB

advanced.adoc 2KB

modules.adoc 2KB

lexer.adoc 1KB

mynlp.adoc 1KB

perceptron.adoc 726B

gradlew.bat 3KB

char_norm 38KB

github.min.css 1KB

mynlp.factories 49B

.gitignore 1KB

.gitignore 22B

gradlew 6KB

mynlp-docinfo-footer.html 308B

gradle-wrapper.jar 58KB

Pinyin.java 102KB

HelpFormatter.java 32KB

Option.java 27KB

CharObjectHashMap.java 24KB

DefaultParser.java 19KB

JdkLogger.java 18KB

InternalLogger.java 15KB

Log4JLogger.java 15KB

CommonsLogger.java 15KB

BinTrieTree.java 14KB

DoubleArrayTrie.java 13KB

Parser.java 13KB

MessageFormatter.java 13KB

CommandLine.java 11KB

Wordnet.java 11KB

OptionBuilder.java 11KB

PipelineLexerBuilder.java 10KB

AhoCoraickDoubleArrayTrieBuilder.java 10KB

Options.java 10KB

PosixParser.java 10KB

AhoCorasickDoubleArrayTrie.java 9KB

DoubleArrayTrieStringIntMap.java 9KB

MynlpBuilder.java 9KB

IntArrayList.java 9KB

MynlpEnv.java 8KB

Wordpath.java 8KB

VertexRow.java 8KB

DoubleArrayMaker.java 8KB

DoubleArrayTrieMap.java 8KB

AtomWordViterbiBestPathAlgorithm.java 7KB

BufferedReaderLFCR.java 7KB

CoreDictionaryImpl.java 7KB

TypeHandler.java 7KB

ViterbiBestPathAlgorithm.java 7KB

TrieTreeForwardMaxMatcher.java 6KB

AbstractInternalLogger.java 6KB

PatternOptionBuilder.java 6KB

BiGramTableDictionaryImpl.java 6KB

Characters.java 6KB

PinyinResult.java 6KB

State.java 6KB

Settings.java 6KB

SentenceSummaryTest.java 6KB

MurmurHash3.java 6KB

Vertex.java 6KB

PipelineLexer.java 6KB

PerceptronNerService.java 5KB

BasePinyinDictionary.java 5KB

CoreTokenizerTest.java 5KB

DATLongMatcher.java 5KB

Nature.java 5KB

ByteUtils.java 5KB

DATMatcher.java 5KB

Slf4JLogger.java 5KB

DataInOutputUtils.java 5KB

KeywordSummary.java 5KB

FastCharReader.java 5KB

CSRSparseMatrix.java 5KB

OptionGroup.java 5KB

TrieTreeAllMatcher.java 5KB

MessageDigests.java 4KB

InternalLoggerFactory.java 4KB

MynlpTokenizer.java 4KB

DictionaryAbsWords.java 4KB

CommandLineParser.java 4KB

LuceneAnalyzerTest.java 4KB

SentenceSummary.java 4KB

Log4J2Logger.java 4KB

GnuParser.java 4KB

ParagraphReaderSmart.java 4KB

BoundedProportionalArraySizingStrategy.java 4KB

ArrayTrieNode.java 4KB

WordNetToStringBuilder.java 4KB

SmartPickUpSubword.java 3KB

WordTerm.java 3KB

EncryptionUtil.java 3KB

BaseExternalizable.java 3KB

DefaultCorrectionDictionary.java 3KB

PathUtils.java 3KB

PerceptronPosService.java 3KB

CartesianList.java 3KB

Sentence.java 3KB

共 421 条

评论收藏

内容反馈

LiuTitanium

粉丝: 28
资源: 4684

mynlp：一个生产级，高性能，预定，可扩展的中文NLP工具包。（中文分词，平均感知机，fastText，拼音，新词发现，分词纠...

最新资源

mynlp：一个生产级，高性能，预定，可扩展的中文NLP工具包。（中文分词，平均感知机，fastText，拼音，新词发现，分词纠...

nlp-lang-1.7.7中文分词工具包

fastNLP自然语言处理（NLP）工具包

自然语言处理-中文分词程序

领域自适应文本挖掘工具（新词发现、情感分析、实体链接等），基于少量种子词和背景知识

中文实体词典(NLP必备)

fastNLP：fastNLP：模块化和可扩展的NLP框架。 目前仍在孵化中

新词发现方法

基于感知机的分词算法简介

fasttext训练数据集

基于Albert+BiLSTM+CRF深度学习网络架构，中文分词，词性标注，命名实体识别，新词发现，关键词，文本摘要，

多语种：多语言文本（NLP）处理工具包

中文分词处理工具包，很准的一款分词器

中文分词工具

用于中文分词的中文词库包

fasttext-0.9.2-cp39-cp39-win_amd64.whl.zip

NLP实战之fasttext进行THUCNews文本分类python

Python-对齐78种语言FastText向量

fasttext训练集

cpp-fastText一个库用于词表示的高效学习和句子分类

my nlp cod

中文人名自动识别的一种有效方法

中文分词工具包 smallseg

中文分词软件

基于感知机模型藏文命名实体识别

NLP_tools:我的自然语言处理工具包合集(只博客中已发布的)

new words Discovery

nlp_chinese_corpus：大规模中文自然语言处理语料

基于fasttext的文本多分类算法.zip

fasttext图书分类数据集

最新资源

fastNLP：fastNLP：模块化和可扩展的NLP框架。目前仍在孵化中