没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
1
自然语言处理常用模型使用方法总结
一、N 元模型
思想:
如果用变量 W 代表一个文本中顺序排列的 n 个词,即 W = W1W2…Wn ,则统计语言
模型的任务是给出任意词序列 W 在文本中出现的概率 P(W)。利用概率的乘积公式,P(W)
可展开为:P(W) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1),不难看出,为了
预测词 Wn 的出现概率,必须已知它前面所有词的出现概率。从计算上来看,这太复杂了。
如果任意一个词 Wi 的出现概率只同它前面的 N-1 个词有关,问题就可以得到很大的简化。
这 时 的 语 言 模 型 叫 做 N 元 模 型 (N-gram) , 即 P(W) = P(w1)P(w2|w1)P(w3| w1
w2)…P(wi|wi-N+1…wi-1)…实际使用的通常是 N=2 或 N=3 的二元模型(bi-gram)或三元模
型(tri-gram)。以三元模型为例,近似认为任意词 Wi 的出现概率只同它紧接的前面的两个词
有关。重要的是这些概率参数都是可以通过大规模语料库来估值的。比如三元概率有
P(wi|wi-2wi-1) ≈ count(wi-2 wi-1… wi) / count(wi-2 wi-1)式中 count(…) 表示一个特定词序
列在整个语料库中出现的累计次数。统计语言模型有点像天气预报的方法。用来估计概率
参数的大规模语料库好比是一个地区历年积累起来的气象纪录,而用三元模型来做天气预
报,就像是根据前两天的天气情况来预测今天的天气。天气预报当然不可能百分之百正确。
这也算是概率统计方法的一个特点吧。(摘自黄昌宁论文《中文信息处理的主流技术是什
么?》)
条件:
该模型基于这样一种假设,第 n 个词的出现只与前面 N-1 个词相关,而与其
它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接
从语 料 中统计 N 个词同时 出 现的次数 得 到 。常用的 是二元的 Bi-Gram 和三元的
Tri-Gram。
资源评论
风清清扬
- 粉丝: 0
- 资源: 2
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功