HMM-POS-master.zip_HMM_HMMmatlab_possmatlab资源-CSDN文库

共18个文件

html：8个

java：5个

pos：2个

版权申诉

119 浏览量 2022-09-20 22:44:32 上传评论收藏 5.14MB ZIP 举报

隐马尔可夫模型（Hidden Markov Model，简称HMM）是一种统计模型，常用于处理序列数据，如语音识别、自然语言处理中的词性标注（Part-of-Speech tagging，简称POS tagging）。在这个“HMM-POS-master.zip”压缩包中，我们可以看到作者使用MATLAB实现了一个HMM进行词性标注的项目。词性标注是自然语言处理中的基础任务，其目的是为句子中的每个单词分配相应的词性标签，如名词（N）、动词（V）、形容词（A）等。这对于理解和解析文本非常关键。HMM因其对序列数据的处理能力，成为词性标注的常用工具。在HMM模型中，有两个主要的概念：状态和观测。状态是不可见的，代表模型内部的工作机制，而观测是可以看见的输出。在词性标注问题中，状态可以理解为隐藏的词性，观测则是实际的单词。HMM模型通过两个核心概率来描述：状态转移概率（从一个状态转移到另一个状态的概率）和发射概率（在特定状态下产生某个观测的概率）。 MATLAB作为一种强大的数值计算环境，被广泛用于科学计算和数据分析，包括HMM的实现。这个项目可能包含了以下内容： 1. 初始化HMM模型：定义初始状态分布、状态转移矩阵和观测发射矩阵。 2. 学习算法：如Baum-Welch算法，用于从训练数据中估计HMM的参数。 3. 前向-后向算法：用于计算给定观测序列的模型概率，或者找到最可能的状态序列。 4. Viterbi算法：用于找到给定观测序列下最有可能的单个状态序列。 5. Baum-Welch重估：迭代优化模型参数，提高模型对数据的拟合度。 6. Decoding过程：根据学习到的模型对新的句子进行词性标注。这个“HMM-POS-master”项目很可能包含MATLAB源代码文件，如.m文件，其中详细实现了上述算法和流程。通过对这些代码的学习，我们可以深入了解HMM如何应用于词性标注，以及MATLAB在处理这类问题时的具体实现方式。对于想要提升自然语言处理技能或对HMM感兴趣的读者来说，这是一个极好的学习资源。

资源推荐

资源详情

资源评论

收起资源包目录

HMM-POS-master.zip （18个子文件）

HMM-POS-master

data

train.pos 8.24MB

test.pos 1.86MB

scoring

score-last-tags-best-with-morph.html 1.47MB

score-good-turing.html 52KB

score-last-tags-best.html 1.48MB

score-baseline.html 1.47MB

score-every-tag-with-morph.html 1.48MB

score-every-tag.html 1.5MB

score-no-smoothing.html 1.47MB

score-add-one.html 1.47MB

style.css 536B

src

HMM.java 13KB

Baseline.java 2KB

Node.java 399B

Scorer.java 6KB

HMMParser.java 3KB

README 1023B

.gitignore 35B

import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.util.ArrayList; import java.util.HashMap; import java.util.Stack; public class HMM { public static void main(String[] args){ HMMParser p = new HMMParser("data/train.pos"); p.parseTrainer(); HMM hmm = new HMM(p); System.out.println("likelihood of 'NN' corresponding to 'agreement': "+ hmm.calcLikelihood("NN", "agreement")); System.out.println("prior probability of NN -> VBG: "+ hmm.calcPriorProb("NN", "VBG")); HMMParser p2 = new HMMParser("data/test.pos"); hmm.viterbi(p2.wordSequence()); } HashMap<String, Integer> tagCounts; HashMap<String, HashMap<String, Integer>> wordCounts; HashMap<String, HashMap<String, Integer>> tagBigramCounts; HashMap<String, HashMap<String, Integer>> tagForWordCounts; HashMap<String, HashMap<String, Double>> goodTuringTagBigramCounts; HashMap<String, Double> goodTuringTagUnigramCounts; HashMap<Integer, Integer> numberOfBigramsWithCount; boolean goodTuringCountsAvailable = false; int numTrainingBigrams; String mostFreqTag; FileWriter writer; final boolean ADDONE = true; final boolean GOODTURING = false; public HMM(HMMParser p){ this.tagCounts = p.tagCounts; this.wordCounts = p.wordCounts; this.tagBigramCounts = p.tagBigramCounts; this.tagForWordCounts = p.tagForWordCounts; this.mostFreqTag = p.mostFreqTag; this.goodTuringTagBigramCounts = new HashMap<String, HashMap<String, Double>>(); this.goodTuringTagUnigramCounts = new HashMap<String, Double>(); this.numberOfBigramsWithCount = new HashMap<Integer, Integer>(); this.numTrainingBigrams = p.numTrainingBigrams; try { writer = new FileWriter(new File("data/output.pos")); } catch (Exception e) { e.printStackTrace(); System.exit(1); } } //returns map[key] private int counts(HashMap<String, Integer> map, String key){ return (map.containsKey(key)) ? map.get(key) : 0; } //returns map[key1][key2] private int counts(HashMap<String, HashMap<String,Integer>> map, String key1, String key2){ return (map.containsKey(key1))? counts(map.get(key1), key2) : 0; } //returns map[key] private double counts(HashMap<String, Double> map, String key){ return (map.containsKey(key)) ? map.get(key) : 0.0; } //returns map[key1][key2] private double counts(HashMap<String, HashMap<String,Double>> map, String key1, String key2){ return (map.containsKey(key1))? counts(map.get(key1), key2) : 0.0; } private int numberOfBigramsWithCount(int count){ if (numberOfBigramsWithCount.containsKey(count)) { return numberOfBigramsWithCount.get(count); } else { return 0; } } private void makeGoodTuringCounts(){ // Fill numberOfBigramsWithCount for (String tag1 : tagBigramCounts.keySet()) { HashMap<String, Integer> innerMap = tagBigramCounts.get(tag1); for (String tag2 : innerMap.keySet()) { int count = innerMap.get(tag2); if (numberOfBigramsWithCount.containsKey(count)) { numberOfBigramsWithCount.put(count, 1+numberOfBigramsWithCount.get(count)); } else { numberOfBigramsWithCount.put(count, 1); } } } // Fill goodTuringTagBigramCounts for (String tag1 : tagBigramCounts.keySet()) { HashMap<String, Integer> innerMap = tagBigramCounts.get(tag1); HashMap<String, Double> innerGTMap = new HashMap<String, Double>(); goodTuringTagBigramCounts.put(tag1, innerGTMap); double unigramCount = 0; for (String tag2 : innerMap.keySet()) { int count = innerMap.get(tag2); // c* = (c+1) * N(c+1) / N(c) double newCount = ((double)count+1.0)*((double)numberOfBigramsWithCount(count+1))/((double)numberOfBigramsWithCount(count)); innerGTMap.put(tag2, newCount); unigramCount += newCount; } goodTuringTagUnigramCounts.put(tag1, unigramCount); } goodTuringCountsAvailable = true; } /* * Calculates P(word|tag) */ public double calcLikelihood(String tag, String word){ if(ADDONE){ int vocabSize = tagForWordCounts.keySet().size(); return (double) (counts(wordCounts,tag,word)+1) / (double) (counts(tagCounts,tag)+vocabSize); } else if(GOODTURING) { return (double) counts(wordCounts,tag,word) / (double) counts(goodTuringTagUnigramCounts,tag); } else { return (double) counts(wordCounts,tag,word) / (double) counts(tagCounts,tag); } } /* * Calculates P(tag2|tag1) */ public double calcPriorProb(String tag1, String tag2){ if(ADDONE) { int vocabSize = tagCounts.keySet().size(); return (double) (counts(tagBigramCounts,tag1,tag2)+1) / (double) (counts(tagCounts,tag1)+vocabSize); } else if(GOODTURING) { if(!goodTuringCountsAvailable) { System.out.println("Making good turing counts..."); makeGoodTuringCounts(); System.out.println("Done making good turing counts."); } double gtcount = counts(goodTuringTagBigramCounts, tag1, tag2); // If this bigram has occurred, return good turing probability if (gtcount > 0.0) { return gtcount / counts(goodTuringTagUnigramCounts, tag1); } // Otherwise, return N1/N as per book (page 101) return numberOfBigramsWithCount(1) / (double)numTrainingBigrams; } else { return (double) counts(tagBigramCounts,tag1,tag2) / (double) counts(tagCounts,tag1); } } public void viterbi(ArrayList<String> words){ //two-dimensional Viterbi Matrix boolean sentenceStart = true; HashMap<String, Node> prevMap = null; for(int i=0; i<words.size(); i++){ if (i%500==0) { System.out.println("working on "+i+" of "+words.size()+" words"); } String word = words.get(i); HashMap<String, Node> subMap = new HashMap<String,Node>(); if(sentenceStart){ Node n = new Node(word, "<s>", null, 1.0); subMap.put(word, n); sentenceStart = false; } else { //add all possible tags (given the current word) //to the Viterbi matrix if(tagForWordCounts.containsKey(word)){ // Only Training Set tags HashMap<String, Integer> tagcounts = tagForWordCounts.get(word); for(String tag : tagcounts.keySet()){ subMap.put(tag, calcNode(word, tag, prevMap)); } // Every Tag //for(String tag : tagCounts.keySet()){ // subMap.put(tag, calcNode(word, tag, prevMap)); //} } else if (word.matches("[A-Z]\\w*")) { subMap.put("NNP", calcNode(word, "NNP", prevMap)); } else if (word.matches("\\p{Digit}*.\\p{Digit}*") || word.matches("(\\p{Punct}+|\\p{Digit}+)+")) { subMap.put("CD", calcNode(word, "CD", prevMap)); } else if (word.contains("-") || word.matches(".*able")) { subMap.put("JJ", calcNode(word, "JJ", prevMap)); } else if (word

评论收藏

内容反馈

版权申诉