中文语言模型的词典优化资源-CSDN文库

共2个文件

pdf：2个

语言模型

词典优化

需积分: 17 16 浏览量 2012-12-30 00:26:34 上传评论收藏 449KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

中文语言模型的词典优化.zip （2个子文件）

lexicon_optimization_for_chinese_language_modeling.pdf 61KB

中文语言模型的词表优化.pdf 419KB

一种针对中文语言模型的词典优化方法

摘要：

本文提出了一种针对中文语言模型的词典优化的方法。该方法是一个由两个

阶段组成的迭代过程，两个过程分别是词典生成和词典剪枝。在第一个阶段，我

们使用统计学的方法从一个相当大的训练语料中抽取出合适的新词。在第二个阶

段，我们根据困惑度最小化原则对抽取的新词进行剪枝使之符合预设的内存限制。

实验结果表明相对于基线词典来说，该方法在字困惑度上能够减少 6%。

1. 简介

几乎所有针对统计语言处理的技术都是基于字的。而且，基于字的统计语言

模型（LM）已经成功的应用于很多领域，比如语言识别、信息检索、口语理解

等。

尽管基于字的语言模型在西方语言上性能很好，但是在中文上却很难应用。

中文不像西文那样词语之间有很好的界定（使用空格分隔），而是基于字的，即

字与字、词与词之间没有明显的分隔符。因此，在中文上，词语没有明确的定义，

也不存在一个公认的词表。进一步说，一个句子的切分结果很可能不是唯一的。

这些因素决定了将语言模型应用于中文的复杂性，而且还存在未登录词这一大问

题。

本文提供了一种新的针对中文语言建模的词表优化方法。这个方法是一个包

含两个阶段的迭代过程。第一个阶段基于互信息生成新词。第二个阶段使用困惑

度最小化原则对生成的词典进行剪枝。实验表明相对于基线词典来说，该方法在

字困惑度上有 6%的减少。

在第二部分，我们进一步介绍中文处理的更多细节，并对进来的相关研究成

果进行简要的讨论。在第三部分，我们详细介绍词表优化方法。在第四部分，我

们展示出实验结果。最后，我们给出结论。

2. 中文处理及近期研究成果

中文以字为基础，中文中有 6763 个常用字。每个词语都是一个语义单元，

平均约相当于 1.6 个字。但是，目前还没有一个标准的词典——语言学家可能在

一些词语上达成共识，但他们会在更多的词语上有所争论。

而且，中文句子中词与词之间没有空格。所以，一个字序列在分词层面上可

能会有很多种解释。

比如，‘马上下来’的可以切分为‘马上|下来’和‘马上|下|来’。前者表

示立刻下来，后者则表示从马上下来。

一些人可能以为基于字的语言模型可以避过上述问题。但是，前人的工作

[4]

已经表明基于字的语言模型不能得到好的结果，因为组成词的每个字总是有不同

的意义。因此，词典对于中文语言模型来说是不可或缺的。近年来，有很多针对

词典建模的相关工作。在[4][5]中，词典元素可以是词语或其他的‘分割模式’，

它们都是用统计学方法从训练语料中抽取出来的。[6]中研究了将二元对添加到

词典中的效果，得到了这样做可以大大减少语言模型的困惑度的结论。但是，盲

目的将新词添加到词典中会降低词典的质量，而将一些合成词删除（或者分解）

则会提高词典的质量

[7]

。

尽管[4][5]提供了中文词典建模的新方向，但它们的方法难以实现和评估。

[6][7]中虽然提供了一些针对添加或删除词典条目的启发式的算法，但没有将中

文考虑在内。在本文中，我们提供了一种行之有效的中文语言建模的词典优化方

法。

3. 词典优化

通过扩展上述方法，我们提出了一种新的针对中文语言建模的词典优化方法。

该方法是一个由两个阶段组成的迭代过程，即词典生成和词典剪枝。在第一个阶

段，我们利用统计学方法从一个大的训练语料中抽取出合适的新词组成词典。在

第二个阶段，我们利用困惑度最小化规则对词典进行剪枝使之不超过预设的内存

限制。接下来，我们将详细介绍每个阶段。

3.1. 词典生成

我们判定新词的基本假设是一个词语是在语料中稳定出现的字序列，依据该

假设，我们得到了从语料中抽取新词的统计学规律，即组成一个词语的各个部分

是强相关的，词语的两端则和相邻的词语是弱相关的。

我们的方法和[8,9,10,11]相似。它包含了两步。首先，利用互信息从大语料

中抽取出新词组成候选列表，然后，利用相对频率和上下文依赖删除不合要求的

词语。

3.1.1. 互信息

根据我们队中文语料库的研究经验，绝大多数的中文词语长度都小于 5，在

分词后的语料中统计得出，词语的平均长度大约是 1.6。因此，提取新词时，我

们只对二元对和三元对进行研究。简单起见，本文只讨论二元对的情况。

我们使用互信息作为标准来衡量组成一个词语的不同部分间的相关度。

理论上说，两个变量 X 和 Y 的互信息公式为：



󰇛



󰇜

 

󰇛



󰇜

 

󰇛







󰇜

 

󰇛



󰇜

 

󰇛



󰇜

 

󰇛

 

󰇜

其中，H(.)是熵。两个符号 x 和 y 之间的互信息可以表示为：



󰇛

 

󰇜

 󰇛󰇜

󰇛



󰇜

󰇛󰇜 （2）

相似的，在下个部分中介绍的我们的实验中，我们衡量二元对的互信息公式

还有其他三种形式：



󰇛

 

󰇜

 󰇛󰇜

󰇛



󰇜

 

󰇛



󰇜

 （3）



󰇛

 

󰇜

 󰇛󰇜





󰇛



󰇜

 

󰇛



󰇜

 （4）



󰇛

 

󰇜

 󰇛 󰇜󰇛󰇜

󰇛



󰇜

󰇛󰇜 （5）

其中，P(.)是概率，则是最好性能下的系数。

抽取出的词语的 MI 值应该高于预设的阈值。

3.1.2. 相对频率和上下文依赖

只使用互信息会导致很多不符合要求的新词出现，比如低频词和语义不完整

的词语。

评论收藏

内容反馈

张雨石

粉丝: 4966
资源: 15

中文语言模型的词典优化

汉语语言模型

基于层次化结构的语言模型单元集优化

sphinx4 中文声学模型、词典、语言模型

sphinx 声学模型和词典

sphinx中文语音训练手册

利用语言模型实现拼音到文字的转换

语言模型建模与评估

语言模型NLP

基于python设计的汉语分词系统

灰色预测模型代码matlab-Texture-Classification-Based-on-Filter-Banks:用于基于滤波器组（'S

自然语言处理—基本任务.pptx

百度开源 / lac毕业设计源码

训练语言模型的样本

语音识别 sphinx4 JAVA 教程

sphinx中文包zh-CN.zip

声学资料，技术，下载

CMU Sphinx-4应用程序编程指南

分词实验要求2110261

awelon:Awelon项目是具有新语言的新UI模型

极速分词免费Windows版

基于多源异构数据的中医药知识图谱构建与应用研究+人工智能+知识图谱+预训练模型

基于Python的中文本关键词抽取源码(分别使用TF-IDF、TextRank、Word2Vec词聚类三种方法).zip

sphinx2.1.1

java 整合 sphinx

大规模词表连续语音识别引擎紧致动态网络的构建 (2012年)

软件工程-理论与实践(许家珆)习题答案

sparser:英语自然语言理解系统

NLP作业-完成分词和词性标注功能+源代码+文档说明

最新资源