HMMBasedChineseSegmentor-开源资源-CSDN文库

共135个文件

java：56个

class：56个

old：6个

113 浏览量 2021-04-28 11:08:21 上传评论收藏 495KB RAR 举报

标题 "HMM Based Chinese Segmentor-开源" 指出，这是一个基于隐马尔科夫模型（Hidden Markov Model，简称HMM）的中文分词工具，并且是开源的。这意味着该工具允许用户查看、使用、修改源代码，并且可以自由地分享和改进。在描述中提到，该项目实现了Lucene Analyzer的接口。Lucene是一个高性能、全文本搜索库，Analyzer是Lucene中用于文本预处理的关键组件，它负责将原始输入文本转换为可供索引的Token序列。实现Analyzer接口意味着这个HMM分词器可以无缝集成到Lucene中，为Lucene提供中文文本的分词服务，使得中文文档能够被正确地索引和搜索。 HMM在中文分词中的应用主要是利用统计学原理来识别词语边界。HMM假设当前状态只能依赖于前一个状态，这种马尔科夫性质有助于识别连续的汉字序列，即词语。它通过学习大量已标注的语料库，计算每个汉字作为某个词的开始或结束的概率，以此来进行分词决策。在中文分词过程中，HMM通常采用“Viterbi解码”算法来找到最可能的词序列。Viterbi算法是一种动态规划方法，它能够在所有可能的分词路径中找到概率最高的那一条，从而实现最佳分词。此外，开源软件的标签意味着这个工具具有以下优势： 1. 可信赖：开源意味着源代码公开，社区可以审核代码，发现并修复潜在的问题，提高软件质量。 2. 自定义：用户可以根据自己的需求对软件进行定制，增加新功能或者优化现有功能。 3. 社区支持：开源项目通常有活跃的社区，用户可以在遇到问题时寻求帮助，或者参与到项目的改进中。 4. 成本效益：开源软件通常是免费的，降低了使用和维护的成本。至于压缩包中的文件"my"，可能是项目源代码的主文件夹或者配置文件。具体的内容需要解压后才能详细分析，包括项目的结构、代码实现、配置文件等，这些都是深入理解这个HMM中文分词器工作原理和使用方式的关键。这个开源项目提供了一个利用HMM技术进行中文分词的解决方案，它与流行的Lucene搜索库紧密结合，为中文信息检索提供了强大支持。开源的特性使得它具有高度的可定制性和社区支持，对于研究和应用中文自然语言处理的开发者来说，是一个极具价值的资源。

资源推荐

资源详情

资源评论

收起资源包目录

HMM Based Chinese Segmentor-开源（135个子文件）

ViterbiAlgorithm.class 5KB

HMMModelFactory.class 5KB

ExtractorTest.class 4KB

ViterbiMatrix.class 4KB

HashMapOutPuter.class 4KB

AnalyzerUtils.class 4KB

WordsDistributionEvaluator.class 3KB

PKUNLPCHSegTokenizer.class 3KB

CJKTokenizer.class 3KB

GenerateProbabilityMatrix.class 3KB

TransferProbabilityMatrix.class 3KB

ViterbiTest.class 3KB

Dictionary.class 3KB

LetternPositionExtractor.class 2KB

InitiatePropabilityMatrix.class 2KB

PositionExtractor.class 2KB

BasicProcess.class 2KB

BigramList.class 2KB

ProbabilityMatrix.class 2KB

ChineseFilter.class 2KB

PositionBigramExtractor.class 2KB

AnalyzerTest.class 2KB

VarianceCalculator.class 2KB

ModelTest.class 2KB

StandardcorpusFilter.class 2KB

PairModelFactory.class 2KB

BasicInfo.class 2KB

HMM.class 2KB

DictionaryCoper.class 2KB

TokenBigramExtractor.class 2KB

LetterExtractor.class 2KB

LetterBigramExtractor.class 2KB

WordnTokenExtractor.class 1KB

TokenExtractor.class 1KB

StringTest.class 1KB

BasicTokenizationExtractor.class 1KB

WordExtractor.class 1KB

PKUNLPCHAnalyzer.class 1KB

CorpusEvaluator.class 1KB

ExpectCalculator.class 996B

PairModel.class 913B

AddDeltaSmoother.class 855B

ExtractDecorator.class 832B

Extractor.class 780B

BasicSegmentationExtractor.class 754B

Probability.class 562B

ProbabilityException.class 547B

AddOneSmoother.class 526B

ModelFactory.class 354B

ForwardBackwardAlgorithm.class 353B

BaumWelchAlgorithm.class 335B

ForwardAlgorithm.class 329B

PKUNLPCHPOSFilter.class 326B

Smoother.class 321B

ContainTool.class 300B

Model.class 280B

.classpath 484B

Entries 3B

Entries.Extra 0B

lucene-1.4.3.jar 316KB

junit-3.8.2.jar 118KB

commons-codec-1.1.jar 18KB

ExtractorTest.java 5KB

HMMModelFactory.java 5KB

ViterbiAlgorithm.java 4KB

CJKTokenizer.java 4KB

ChineseFilter.java 3KB

ViterbiMatrix.java 3KB

AnalyzerUtils.java 3KB

PKUNLPCHSegTokenizer.java 3KB

HashMapOutPuter.java 3KB

ViterbiTest.java 3KB

WordsDistributionEvaluator.java 2KB

TransferProbabilityMatrix.java 2KB

GenerateProbabilityMatrix.java 2KB

Dictionary.java 2KB

AnalyzerTest.java 2KB

BasicProcess.java 2KB

ModelTest.java 1KB

PositionExtractor.java 1KB

ProbabilityMatrix.java 1KB

LetternPositionExtractor.java 1KB

HMM.java 1KB

InitiatePropabilityMatrix.java 1KB

PairModelFactory.java 1KB

VarianceCalculator.java 1KB

BasicInfo.java 1KB

BigramList.java 1KB

PositionBigramExtractor.java 1KB

StandardcorpusFilter.java 1KB

DictionaryCoper.java 1KB

WordnTokenExtractor.java 869B

StringTest.java 831B

TokenBigramExtractor.java 784B

ExpectCalculator.java 758B

BasicTokenizationExtractor.java 739B

共 135 条

评论收藏

内容反馈

薯条说影

粉丝: 717
资源: 4688

HMM Based Chinese Segmentor-开源

ResByte-matlab_HMM-archive-refs-heads-master.zip

FIR-Channel-Blind-Equalization-based-on-HMM-and-EM-Algorithm:基于HMM的EM算法盲通道均衡的Matlab仿真。

Open source HMM toolbox, with Discrete-HMM, Gaussian

Python库 | hmm_kit-0.1-py3.6-linux-x86_64.egg

HMM模型语音识别0-9

DNN-HMM Based Multilingual Recognizer of Telephone Speech

kaldi-master.zip_GMM-HMM_HMM GMM_Kaldi-master-_balanceecd_yeth82

Sinsy:基于HMM的歌声合成系统-开源

基于HMM-LSTM隐马尔可夫和长短期记忆模型的股票市场预测（Python完整源码和数据）

HMM.rar_ hmm - matlab code_HMM_HMM matlab_HMM MATLAB CODE

tutorial on hmm and applications

hmm模型matlab代码-pytorch-hmm-vae:pytorch-hmm-Wo

基于HMM的语音识别系统-源码

大白话HMM全套系列课程--从此爱上HMM

hmm-speech-recognition-0.1-(1).zip_speech matlab_speech recognit

HMM-based HTS

Wavelet-Based Statistical Signal Processing Using Hidden Markov Models,,,HMM

hmm.rar_Baum-Welch算法_VAD算法_baum welch算法_mfcc hmm_概率密度函数

A2L Build for MCD - AutoExtractGui:从ELF为汽车MCD工具（例如INCA）构建A2L-开源

QtJSBSim:JSBSim的分布式飞行模拟和前端-开源

Spectral Python:用于高光谱图像处理的python模块-开源

libonvif:为 Windows、Linux、Mac 实现客户端 ONVIF 的库-开源

Hysteresis:在 Matlab 中实现的 Preisach 型滞后模型。-开源

PDMWeb-开源

SCADA system-开源

Statistical Process Control (SPC)-开源

MIST:用于仿真光学系统的MATLAB工具箱-开源

IEC60870-5-104 Source Code Library Stack:适用于 Windows、Linux、QNX、实时操作系统、ARM 的 IEC 104 源代码库-开源

draw.io-23.1.5-windows-no-installer.exe

最新资源