NLP分词算法，源码_分词算法资源-CSDN文库

需积分: 24 50 浏览量 2017-11-12 17:49:40 上传评论 1 收藏 220KB DOC 举报

资源推荐

资源详情

资源评论

NLP 基于最大概率的汉语切分

Ytinrete

要求：

基于最大概率的汉语切分

目标：采用最大概率法进行汉语切分。

其中：n-gram 用 bigram，平滑方法至少用 Laplace 平滑。

输入：接收一个文本，文本名称为：corpus_for_test.txt

输出：切分结果文本，

其中：切分表示：用一个字节的空格“ ”分隔，如：我们在学习。

每个标点符号都单算一个切分单元。

输出文件名为：学号.txt

Bigram 参数训练语料：corpus_for_train.txt

注：请严格按此格式输出，以便得到正确评测结果

切分性能评价：

分

切分结果评测

F*100, F=2P*R/(P+R)

特别注意:代码雷同问题

本次作业最后得分会综合考虑：切分性能、代码、文档等几个方面。

第三次作业上交的截止时间：2014 年 1 月 7 日 24:00

n-gram

n 较大时：

􀂄 提供了更多的语境信息，语境更具区别性。但是，参数个数多、计算代价大、训练语料

需要多、参数估计不可靠。

n 较小时：

􀂄 语境信息少，不具区别性。但是，参数个数少、计算代价小、训练语料，无需太多、参

数估计可靠。

题目要求使用 bigram，即考虑前一个词，即考虑左邻词。

左邻词

假设对字串从左到右进行扫描，可以得到 w1 ,w2 ,…,wi-1 wi,…等若干候选词，如果

wi-1 的尾字跟 wi 的首字邻接，就称 wi-1 为 wi 的左邻词。比如上面例中，候选词“有”就是

候选词“意见”的左邻词，“意见”和“见”都是“分歧”的左邻词。字串最左边的词没有左邻词。

最佳左邻词

如果某个候选词 wi 有若干个左邻词 wj ， wk ,…等等，其中累计概率最大的候选词称

为 wi 的最佳左邻词。比如候选词“意见”只有一个左邻词“有”，因此，“有”同时也就是“意见”

的最佳左邻词；候选词“分歧”有两个左邻词“意见”和“见”，其中“意见”的累计概率大于“见”累

计概率，因此“意见”是“分歧”的最佳左邻词。

数据稀疏问

若某 n-gram 在训练语料中没有出现,则该 n-gram 的概率必定是 0。解决的办法是扩大训

练语料的规模。但是无论怎样扩大训练语料，都不可能保证所有的词在训练语料中均出现

由于训练样本不足而导致所估计的分布不可靠的问题，称为数据稀疏问题。在 NLP 领域中，

数据稀疏问题永远存在，不太可能有一个足够大的训练语料，因为语言中的大部分词都属

于低频词。

解决办法: 平滑技术

􀂄 把在训练样本中出现过的事件的概率适当减小。

􀂄 把减小得到的概率密度分配给训练语料中没有出现过的事件。

􀂄 这个过程有时也称为 discounting(减值)。

目前已经提出了很多数据平滑技术，如：

􀂄 Add-one 平滑

􀂄 Add-delta 平滑

􀂄 Witten-Bell 平滑

􀂄 Good-Turing 平滑

􀂄 Church-Gale 平滑

􀂄 Jelinek-Mercer 平滑

􀂄 Katz 平滑

剩余20页未读，继续阅读

内容反馈

Mays_changzhi

粉丝: 0
资源: 3

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip