下载  >  开发技术  >  其它  > 论文研究-基于概率组合范畴文法的中文语义解析 .pdf

论文研究-基于概率组合范畴文法的中文语义解析 .pdf 评分

基于概率组合范畴文法的中文语义解析,李金淼,高志强,本文采用因子化的概率组合范畴文法(probabilistic combinatory categorial grammar, PCCG)作为语义解析器的模型,该模型可以从数据集中学习得到一��
山国武花论文在丝 组合范畴文法 组合范畴文法是一种能够将句法和语义紧密结合的文法,它可以对广泛的语言现 象进行建模。文法的核心是词典∧,而词典的词项通常为如下形式: 哪些卜(/ 州上 相邻卜( 德克萨斯卜 其中每个词项的形式为卜:,表小能够重构句子的词串,表小词串对应的句法范 畴,而则表示其对应的语义。对于词项,它们分别是州、和a 。句子可以看 作是若干单词组成的串,表示为 ”。词串可以是单词、词组、短语或者句子,它由 句子或者其它词串切分而成 句法范畴可以是简单形式,比如或者,也可以是复杂形式,比如 其中斜杠代表了词串结合的顺序。仅使用少量的组合规则来对句子进行句法解析和语 义表小。以下两个例子分别展现了 和 的组合规 根据这些组合规则以及词项中斜杠的方向可以完成句子的句法和语义解析。举例来说,对于 上述的词典,伺子“哪些州相邻德克萨斯”可以按如下过程进行解析: 哪 相邻 德克萨斯 (/( A见 2 2 图 解析示例图 除此之外, 还包含 和 的组合规则 除了这四种组合规则以妒,组合范畴文法运包含其它的组合规则。但是为了避免解析过 程变得过于复杂,在本文的实验中仪使用这四种组合规则。 相关工作 早期的语义解析器都与数据库的自然语言接口 有关,比如 和 。这些语义解析系统由人手工构建并 且只适用于特定数据库。后来岀现了从训练语料中学习语乂解析器的方法,这些方法主要分 为以下儿类: 山国武技论文在丝 句法驱动的语义鮮析方法:这种方法将语义标记加入到句法解析器中,使得解析结 果同时包含句法信息和语义信息。 和 等人提出了层次隐理解模型 火学习上下文无关文法。和 等人 通过改进 而提出了 基于语义文法的语义解析方法:这种方法去掉了解析树中的句法标记而只保留语义 标记,从而降低了解析树的复杂度。 提出的语义文法 以生成仅含语义信息的解析树。和 等人在 年时提出了基于语义 文法的语义解析方法 来 和 又提出了基于字符串核的语义解析方法 而 和 提出了基于统计机 器翻译的的语义解析系统 其它方法:有监督的学习方法需要人工标记的语料,这些语料往往规模较小且难以 获得。因此有人提出了使用强化学习或者无监督学习米构建语义解析器的方法。 等人和等人提出的方法使用数据库查询的答案来代替查询的语义 等人和等人提出的方法可以在无监督的情况下完成语 义解析。 基于组合范畴文法的语义解析方法能够从带有语义标记的句子中学习得到语义解析器。 和 首先提出了能够处理英文的语义解析方法,该方法使用手写规则来 生成词项。后来 和 继续扩展了该方法,使得它可以在上下文相关的环 境里学习语义解析器。由于这些方法依赖语言相关的人⊥知识,所以无法直接应用于中文的 语义解析 提出了基于合一的语义解析方法,该方法不限定于特定语言,但是对于 新句子的扩展能力较差。后米 又改进了词项的表示方法,提出了因子化的词 典,从而解决了扩展能力较差的问题。虽然 提出的方法不需要人工知识,但效 果却没有 和 的方法好,在中文上则更差。这是因为基于合一的词项牛成 方法会产生人量的候选词项,为词项选择过稈造成了很人的挑战。除此之外,中文句子中普 遍的长距离依赖现象也导致该方法难以在中文语义解析上取得很好的效果。 基于概率组合范畴文法的中文语义解析 本节给出问题的定义、使用的模型、句子的解析方法以及解析器学习方法的慨述。 问题定义 目标是学习得到一个中文语义解析器,它可以将一个中文句子转换成表示其意义的逻 辑形式。学习算法的输入是个训练样例,它们由中文句了和表示其意义的 演算 表达式组成,表示为 。数据集中使用的中文句子均采用手工分词,词与词之 间使用空格分隔。某个训练样例如下所示: “哪些州相邻德克萨斯”而又 模型 本文使用因子化的,概率组合范畴文法作为语义解析器的模型,它包含两鄙分内容:因 子化词典和概率组合范畴文法 山国武技论文在丝 因子化词典 原夲词典的词项由词串、句法范畴以及语义来指定。举例来说,词项“州卜 表示词串“州”具有句法范畴以及语义表示A 。现在使用因子化 的词典代替原来的词典,其中 表小一系列的词素。词素由词串和一组逻辑常量组成,这些逻辑常量可以构建单 词的语义。举例来说,词素可以是德克苎斯, 长示系列的词法模板。模板可以将与其类型匹配的词素映射成为个完整的词 项。举例米说,某个模板可以将上面的词素映射为词项“德克萨斯卜 因子化为词典提供了更加紧凑的表示,也提高了词典的学习效率。 概率组合范畴文法 个句子有着多种切分方式,而且每个词串也可能对应多个词项,所以这个句子会有多 种不同的解析。通过使用对数线性模型对这些不同的解析进行建模,从而为选择极人似然解 析提供依据。对数线性模型包含一个特征冋量ρ和一个权重向量θ。因此,给定句子,返 回逻辑形式,并且解析为的概率为: 假设在词典∧和权亘向量已知的情况下,对于给定句子,解析的过程就是找到极大 似然逻辑形式 其中逻辑形式的概率通过对所有不同解析的概率求和得到 这种方法把解析作为模型的隐藏变量。在公式中,所有可能鮮析的概率之和可以通过 算法进行快速地计算。 句子解析 解析概率组合范畴文法的算法与解析概率上下文无关文法 的 算法十分相似。和相比,解析 的算法有两个区别: 对于同一词串 使用非终结符标记,而 使用带语义信息的范畴标记 根据两个词串的非终结符以及产生式来推导整个词串的非终结符,而 根据两个词串的范畴和组合规则来推导整个词串的范畴。 解析器学习 解析器的学习过稈包括词典归纳和参数估计,它们在整个学习过程中交替进行。对于每 个训练样例,首先进行词典归纳以得到新的词项,然后使用参数估计过程对新词项以及该样 例中出现的旧词项的特征权重进行更新。如此循环往复,共同完成解析器的学习。 词典归纳 词典归纳指的是从给定训练样例中分解岀合适的词项,然后将该词项因了化为词素和模 山国武花论文在丝 板,最后加入词典中的过程。它包含以卜三个步骤: 词项生成:词项生成指的是对于给定训练样例,生成所有可能重构该样例的候选词 项。词项生成包含三个子步骤:语义切分、句子切分和范畴计算。语义切分指的是 将给定语义标记切分成一对能够重构原始语义的语义对的过程。句子切分指的是将 给定句子切分成左右两个词申的过程。将语义切分得到的语义对和句子切分得到的 词串对进行笛卡尔积可以得到不含句沄范畴的词项。范畴计算指的是根椐词项的 语义和词串的位置来计算句法范畴的过程。 词项选择:词项选择指的是利用岀前的解析模型从候选词项中选取日标词项并加入 词典的过程。 词项因了化:词项因了化指的是将选中的词项分解成词素和模板的过程. 参数估计 参数估计是利用训练样例对模型参数进行学习的过程。概率组合范畴文法的模型参数是 词典中每个词项的特征权重。本文采用随机梯度下降 算法 对权重向量进行佔计。 对于数据集中的某个样例,调节权重向量的目标是极人化条件对数似然函数: e A 为了实现这一目标,需要计算关于θ的梯度。对于θ的第个分量O,其局部梯度为: 0日 其中,q是权重6对应的特征函数,而则表示期望。与公式一样,公式中的所有期 望都可以通过 算法计算得出。 学习算法概述 算法展示了语义解析器的学习过程。该算法首先初始化词典和权重向量,然后使用数 据集进行词典归纳和参数估计,最后返回词典和杈重问量。 算法语义解析器学习算法 输入:数据集 ,包含个训练样例 输出 词典∧和权重向量θ 子过程 ,初始化过程,其输出是初始化的词典Δ和初始化的权重向量θ ,其输入是句子以及语乂标记,其输出是能够重构该样例的候选词项集合 θ,其输入是句子、词典∧和权重向量θ,其输出是句子的解析结果 ∧θ,其输入是句子、语义标记、词典A和权重向量θ,其输出是纤过参数估计过 程新后的权重向量O ∧b AAU A 山国武花论文在丝 在上述算法中,A是个临时词典,它包含原词典的词项以及当前样例生成的词项。A是 解析所使用的词项的集合,而是学习算法的迭代轮数。 逐层切分的词项生成方法 在词典归纳过程中,候选词项的数量对于解析器的性能有很大的影响。在词项生成方法 行一次所产生的结果中,一般只有一对合适的候选词项,剩余的候选词项对都是不合适的 或者无效的。“合适”指的是符合人们的理解习惯,“不合适”指的是词串与语义匹配但不 符合人们的理解习惯,而“无效”指的是词串与语义不匹配。举例来说,“哪些州相邻德 克萨斯卜 ”可以切分成“哪些州卜 ”和“相邻德克萨斯卜 这是 对合适的候选词项:它也可以切分成“哪些州相邻卜 和“德克斯 ”,这是一对不合适的候选词项,“哪些州相邻”作为整体表达 语义不符合人们的理解习惯;它还可以切分成“哪些州卜 和“相邻德克萨斯卜 ”,这是一对无效的候 选词顷,词串“相邻德克庐斯”与语义“”不匹配。 在候选词项中,合适的词项对是词项选择过程的目标词项对,其它的则是非目标词项对。 在候选词项很多的情况下,依靠词典和统计信息进行词项选择有两个问题: 丢失目标词项对:因为词典中的初始词项的特征权重具冇很髙的初始值,所以如果 目标词项对不包含初始词项,那么它的得分往往低于那些包含初始词项的非目标词 项对,这导致它会在词项选择过程中丢失 引入非囗标词项对:统计信息仅能够衡量词串和语义的匹配度,这导致很多不同的 候选词项对只有相同的得分。如果存在与目标词项对得分相同的非目标词项对,那 么它们也会加入词典 丢失目标词项对会导致解析器的精度和召回夲下降,引入过多的非目标词项对会降低解 析器的效率。逐层切分的词项生成方法可以在保留目标词项对的情况下,大大减少非目标词 项对的数量 逐层切分 逐层切分是语义切分的一种方法。在语义解析过程中,语义的组合由 操作来 实现,所以切分语义的方法是 的逆操作。逐层切分指的是按照 演算表达 式的层次结构来进行 逆操作的语义切分方法。 演算衣达式本身具有严格的层次结构,但为了阅读方便而常常省略括号,这就 降低了表达式的层次感。举例来说,表达式之 常常写成表达式 常量与逻辑连接符∧等价。在该表达式中与 处于同层,而则处于它们的外层 逐层切分能够从最外层的函数中取出非变量参数来产生一对切分结果λ 其中变量与参数具有相同的类型。举例来说,逐层切分会从表达式 中切分出函数A 以及参数 但不会切分出函数2A 和参数,因 为参数与最外层的函数隔了一层 这违反了逐层切分的原则。算法展示了 逐层切分的过程。 山国武技论文在丝 算法逐层切分算法 输入:函数非函数无法切分 输出:语义对2 的集合,共中的语义对都可以通过 操作生成函数 在上述算法中, 是由函数切分产生的语义对的集 是函数的参数 列表, 是参数中自由变量的集合,而 是 这些变量按照函数中绑定变量山现顺序的逆序进行排序后的结果 切分结果的筛选策略 逐层切分产生的语义对在和词串对进行笛卡尔积之后仍然会产生人量的非目标词项对, 需要通过筛选来进一步降低它们的数量。对于语义对中的参数,如果它的语义复杂度最大, 那么就保留该语义对,去除其它的切分结果。语义复杂度指的是一个 演算表达式所 表达语义的丰富程度。语义复杂度通过 演算表达式中常量和附加量词的数量来衡量。 算法展示了切分结果的奅选过程。 算法筛选算法 输入: ,由逐层切分算法产生的语义对的集合 输出: 经过筛选策略筛选后的语义对的集合 子过程: ,其输入是一个演算表达式,其输H是该表达式中常量和附加量词的数量 在上述算法中, 表示目前语义复杂度最大的参数的常量和附加量词的数量。 附加量词的特殊处理 对于切分出的某些语义,词项生成过程无法产生有效的词项。这是因为这些语义对应的 词串并非分布在左边或者右边,而是分布在中间或者两端。根据话义对中函数对应词串的位 置,无效词项的原因分为以下两种情况: 山国武技论文在丝 函数对应词串分布在两端。词组合并方法在定程度上降低了这种情況出现的機 率 函数对应词串分布在中间。附加量词是这种情况出现的主要原因。相比其它表示函 数的常量,附加量词更为特殊,它们以 表达式作为参数而不是以变量或者 常量作为参数。这导致附加量词在 演算表达式中常常处于外层,在语义切 分后,它们会在语义对中作为函数出现,而它们对应的词串基本分布在句子中间。 举例来说,某个训练样例为,其中“处于美国的最大州是什么”而 在这个样例中附加量词 对应 的词串“最大”处于整个句子的中间。 为了处理附加量词导致词项生成过程无法产生有效词项的问题,需要对函数中含有附加 量词的语义对进行特殊处理。因为函数对应词串分布在中间,所以分布在两端的词串对应的 语义是参数。因为附加量词的参数是 表达式,所以其参数可以继续切分。对该参数 进行逐层切分,得到参数中的函数和参数中的参数。使用 操作将参数中的函数 与原来的函数组合成新的函数。新的函数与参数中的参数构成新的语义对,该语义对可以生 成有效的词项对。算法展小了附加量词的处理过程 算法附加量词处理算法 输入:2和,其中是附加量词 输出:能够重构的另一个新语义对 子过程 ,其输入是两个 表达式,其输出是组合它们而得到的 表 达式A 在上述算法中, 表示经过附加量词处理的语义对的集合。 词项生成算法 算法展示了逐层切分的词项生成算法产生词项的过程。句子切分过程生成词串对,语 义切分过程生成语义对。将词串对和语乂对进行笛卡尔积得到候选词项对。然后使用范畴计 算过程来计算这些词项的范畴。 语义切分过程使用了逐层切分算法、筛选算法和附加量词处理算法。对于语义,如果 它不是一个函数,那么返回空集。否则,首先使用逐层切分算法对该函数进行切分,然后使 用筛选算法对切分结果进行筛选。如果切分得到的语义对中的涵数是附加量词,那么再使用 附加量词处理算法进行处理。最后返回保留下来的语义对集合。 山国武技论文在丝 算法逐层切分的词项生成算沄 输入:句子及其语义标记 输出:能够重构该样例的词项对集合 子过程: ,其输入是句子,其输出是切分产生的词串对集合 ,其输入是语义标记,其输岀是能够重杓该语义的语义对集合 其输入是候选词项对 和句子以及语义标记,其输 出是词项对 所对应的范畴对 在上述算法中, 表示词串对集合, 表示语义对集合 衣示词项对集合,而 衣示某对词项对应的洹畴对。 词组合并的预处理方法 图中句子“哪些州相邻德克萨斯”并不符合中文的表达习惯,应该更正为“哪些州 与德克萨斯相邻”,这就引入了长距离依赖词组“与…相邻”。在解析这个句子的过程中 必须使用“与”和“相邻”的整体语义,使用它们的个体语义无法正确解析句子。 模型只 能将相邻词串进行左右结合,而无法将词串进行内外结合。为了使 模型能处理这种 情况,应该对原始句了进行词组合并的预处理,将长距离依赖的词组合并成个单词 词组和固定搭配的特点是其中的单词会同时出现在同一个句子中。根据这一特点,可以 找出句子中的词组和固定搭配。算法展示了词组合并的过程,具体步骤如下: 计算条件概率:首先统计训练数据集中某个单词的数量,以及它和另一个单词 同时出现的次数。然后计算出给定单词,单词和同时出现的条件概率 合并单词:如果单词和的条件概率为,那么合并这两个单词。如果和 在原句中相邻,那么合并结果是“”,否则合并结果是“…”。

...展开详情
所需积分/C币:10 上传时间:2019-08-24 资源大小:669KB
举报 举报 收藏 收藏
分享 分享
论文研究-基于k-means聚类算法的研究 .pdf

基于k-means聚类算法的研究,黄韬,刘胜辉,本文首先分析研究聚类分析方法,对多种聚类分析算法进行分析比较,讨论各自的优点和不足,同时针对原k-means算法的聚类结果受随机��

立即下载
论文研究-基于SDN的融合网络研究 .pdf

基于SDN的融合网络研究,曹冉,寿国础,随着网络技术的高速发展,大量不同的网络业务、通信设备不断涌现,使用户置身于一种复杂多样的网络环境中。因此,如何实现多种互��

立即下载
论文研究-基于JDBC的数据库访问研究 .pdf

基于JDBC的数据库访问研究,于宁宁,赵宗平,JDBC兼具有强大的数据处理功能,它可以处理各种不同类型的数据源,同时具有极其简单、易用的编程接口,因而得到了广泛的应用。为��

立即下载
论文研究-基于CUDA的SAR成像算法研究 .pdf

基于CUDA的SAR成像算法研究,何丰,任义,雷达技术的不断发展使合成孔径雷达(SAR) 成像处理呈现出算法复杂化、数据海量化、运算密集化等趋势,在基于中央处理器(CPU)的平台上�

立即下载
论文研究-基于QoS的上行调度算法研究 .pdf

基于QoS的上行调度算法研究,朱歆垚,别红霞,随着无线通信与生产需求的发展,越来越多的任务需要设备在没有人干预的情况下进行相互通信来完成,我们称之为 M2M通信。LTE网络支��

立即下载
论文研究-基于Asterisk的SS7集群研究 .pdf

基于Asterisk的SS7集群研究,王晓栋,詹舒波,Asterisk作为一个开源的VoIp PBX 系统,是一个在Linux环境下的纯软件实施方案,完成了各种IP PBX 的功能。它免费,开源,可二次开发的特性�

立即下载
论文研究-基于EPZS的运动估计算法研究 .pdf

基于EPZS的运动估计算法研究,许晨,刘彦隆,运动估计是H.264中的关键技术之一,是数据压缩的重要部分,但也耗费了整个编码时间的巨大一部分。为了适应实时性的需求,人们在保�

立即下载
论文研究-基于3-matic的有限元前处理方法研究 .pdf

基于3-matic的有限元前处理方法研究,王伟,杨亚男,针对数字化CAD模型的STL格式文件无法直接生成三维实体模型进行有限元分析的问题,本文提出了基于3-matic的有限元前处理技术,即将扫��

立即下载
论文研究-基于EPON的动态带宽分配算法研究 .pdf

基于EPON的动态带宽分配算法研究,陈存康,,本论文展示了一种基于以太网的下一代无源光网络(EPON)。并且提出了一种称为固定周期流水线轮询(CPP)的动态带宽分配算法(DBA)��

立即下载
论文研究-基于WoT的接口协议 .pdf

基于WoT的接口协议,周密,孙礼,由于物联网设备种类繁多,网络架构区别较大,整个物联网系统相对封闭等问题,物联网的进一步发展受到了很大的阻碍。而Web of Things��

立即下载
论文研究-基于条件随机场的中文分词研究 .pdf

基于条件随机场的中文分词研究,张成志,王洪波,本文对基于条件随机场的中文分词理论和技术做了研究,并基于开源的crf 实现了一个中文分词器。CRF模型将分词转化为标记问题,充分�

立即下载
论文研究-基于语义的三维模型检索框架研究 .pdf

基于语义的三维模型检索框架研究,郭爽,冷彪,语义研究是目前三维模型检索技术的一个重要研究方向。传统的三维模型检索技术依托于以模型特征向量为存在形式的底层特征信息,其��

立即下载
论文研究-基于VRML的三维仿真建模算法研究 .pdf

基于VRML的三维仿真建模算法研究,王昊鹏,刘永玉,随着Internet的发展,以VRML为代表的基于WWW的虚拟现实建模技术正在日益受到广泛的重视。基于VRML、遥感技术构建虚拟三维环境可以对农��

立即下载
论文研究-基于RSSI的ZigBee室内定位算法研究 .pdf

基于RSSI的ZigBee室内定位算法研究,高永清,商丹,通过分析对数距离路径损耗模型、待定位节点定位过程中产生的误差,提出了首先采用基于RSSI和均值滤波与加权质心混合定位算法进行��

立即下载
论文研究-基于JADE的兵棋推演系统研究 .pdf

基于JADE的兵棋推演系统研究,刘转,李德华,针对传统兵棋推演系统在缺乏描述复杂系统的能力,以及缺乏对动态环境的行为建模能力的缺点,本文构建一个基于JADE的兵棋推演系统��

立即下载
论文研究-基于FPGA的视频采集显示系统研究 .pdf

基于FPGA的视频采集显示系统研究,黄河,张小松,本文详细介绍了基于FPGA技术的的视频采集显示系统。在本系统中,将FPGA 作为视频采集系统的控制中心,利用FPGA芯片高度集成、高速度��

立即下载
论文研究-基于深度学习的人脸识别算法研究 .pdf

基于深度学习的人脸识别算法研究,赵学斌,张雷,传统的人脸识别算法主要是基于图像的浅层特征提取,比如LBP、SIFT、HOG等图像特征描述算子,然后进行多种浅层特征融合,PCA降维之后��

立即下载
论文研究-基于蚁群算法的LEACH协议研究 .pdf

基于蚁群算法的LEACH协议研究,王静,胡彧,针对LEACH协议中簇头节点与汇聚节点之间采用单跳通信造成能量损耗过快的问题,提出了一种基于蚁群算法的LEACH协议,该算法利用蚁群��

立即下载
论文研究-基于改进EMD的语音增强方法研究 .pdf

基于改进EMD的语音增强方法研究,卢志茂,孙美玲,EMMD分解后的信号虽然解决了EMD中存在的端点效应问题,但是存在音乐噪声,因此,本文提出一种基于EMMD/MMSE的语音增强方法。该算法是��

立即下载
论文研究-基于Logistic混沌序列通信系统仿真研究 .pdf

基于Logistic混沌序列通信系统仿真研究,宗恒山,李艳萍,针对扩频序列的好坏直接关系到扩频通信系统性能的好坏,本文提出了一种基于Logistic混沌序列的直扩通信系统模型。经过系统仿真实验�

立即下载