自然语言处理常用模型使用方法总结资源-CSDN文库

自然语言处理

需积分: 47 161 浏览量 2019-03-20 19:24:14 上传评论收藏 1MB PDF 举报

资源推荐

资源详情

资源评论

1

自然语言处理常用模型使用方法总结

一、N 元模型

思想：

如果用变量 W 代表一个文本中顺序排列的 n 个词，即 W = W1W2…Wn ，则统计语言

模型的任务是给出任意词序列 W 在文本中出现的概率 P(W)。利用概率的乘积公式，P(W)

可展开为：P(W) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1)，不难看出，为了

预测词 Wn 的出现概率，必须已知它前面所有词的出现概率。从计算上来看，这太复杂了。

如果任意一个词 Wi 的出现概率只同它前面的 N-1 个词有关，问题就可以得到很大的简化。

这时的语言模型叫做 N 元模型 (N-gram) ，即 P(W) = P(w1)P(w2|w1)P(w3| w1

w2)…P(wi|wi-N+1…wi-1)…实际使用的通常是 N=2 或 N=3 的二元模型(bi-gram)或三元模

型(tri-gram)。以三元模型为例，近似认为任意词 Wi 的出现概率只同它紧接的前面的两个词

有关。重要的是这些概率参数都是可以通过大规模语料库来估值的。比如三元概率有

P(wi|wi-2wi-1) ≈ count(wi-2 wi-1… wi) / count(wi-2 wi-1)式中 count(…) 表示一个特定词序

列在整个语料库中出现的累计次数。统计语言模型有点像天气预报的方法。用来估计概率

参数的大规模语料库好比是一个地区历年积累起来的气象纪录，而用三元模型来做天气预

报，就像是根据前两天的天气情况来预测今天的天气。天气预报当然不可能百分之百正确。

这也算是概率统计方法的一个特点吧。(摘自黄昌宁论文《中文信息处理的主流技术是什

么?》)

条件:

该模型基于这样一种假设，第 n 个词的出现只与前面 N-1 个词相关，而与其

它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接

从语料中统计 N 个词同时出现的次数得到。常用的是二元的 Bi-Gram 和三元的

Tri-Gram。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余6页未读，立即下载

内容反馈

风清清扬

粉丝: 0
资源: 2

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip