论文研究-基于语义分析树核的多特征句子相似度计算 .pdf

所需积分/C币:23 2019-08-15 17:14:39 267KB .PDF
20
收藏 收藏
举报

基于语义分析树核的多特征句子相似度计算,王利局,黄德根,本文提出语义分析树核的多特征相似度计算方法,该方法分别从句法特征、单词语义特征和词特征三个方面来计算两个句子的相似度。句
山国武技论文在线 比较两个树状结构时,可将树表示成全部子树类型的向量形式 ,其中()是第个子树类型( 在中 出现的次数,其中出现的部分子树如图所示。 将树表示成向量形式后,树和树之间的相似度可以用如公式所示,用两个向量 ()和()之间的点积来计算。 ()·()=∑()( VP NP VP 是老师 学生 图树状结构中的部分子树 由于向量()的维数与树的大小呈指数关系计算的复杂度高因此 和 提出如下的 核函数来隐含地计算两个向量之间的点积 ()()=∑()()=∑∑∑()()=∑∑ 其中和是和中的节点集合而我们定义 ∑()()是以 节点和为根的公共子树数量。若子树存在于以为根结点的树中则定义符号函数 ()为,否则为这样使得点积的计算一方面从复杂度上路为o|D另一方面 使求解的过程更加清晰。 )的递归计算形式如下 若在和上的产生式 不同则 若在和上的产生式相同且和的孩子只有叶子节点则 若在和上的产生式相同且和的孩子没有叶子节点则 其中()是的孩子数量节点的第个孩子()-()。节点上的产 生式 是指节点到其全部孩了的产生衣述。 单词语义相似度度计算 句子结构相似度是利用句子的句法信息,仅仅考虑句法信息但不能体现句子的单词语义 信息。单词语义信息由其构成的单词同义关系决定 计算单词语义相似度时,用《同义词词林》作为系统的词义知识资源。其基木思想就是 利用词林中对每个单词提供的语义编码进行两个单词之间的语义距离计算。我们用的《同义 山国武技论文在线 词词林扩展版》将单词的词义逐级划分为层,描述个由上到卜,由宽泛概念到具体词义 的语义分类体系,并将所有的单词按词义分门别类组织在其中。每个单词汇都按照其语义, 赋予了一个或多个位的语义代码。 对于两单词之间的语义距离,我们首先查到他们的语义编码,然后利用如下的公 式进行计算 其中,为它们之间的语义代码从第层开始不同,全部相同语义距离为,如苹 果 香蕉 喜欢 爱 。用公式可知 (苹果,香蕉)=,(喜欢,爱)=。 般地,一个完整的汉语句子可分为关键成分和修饰成分,其中由关键成分可以了解一 个句子的大概意思:此外,由于汉语表达形式的多样性,相同的关键成分可以用不同修饰成 分来修饰,如果强调修饰成分,会给句子闫的相似的计算增加噪音。基于以上两点,我们在 计算句子的单词语义相似度时,只考虑句子中的关键词之间的相似度。所谓的关键词在这里 定义为句子中的名词,动词,形容词和副词 例如以下两个句子间的单词语义相似度: 例句:数学是一门科学严谨的学科。 例句:学习数学要求思维严谨。 其分词后的形式是 例句:数学是 门科学严谨的学科 例句:学习数学要求思维 分别根据句子中词性标注,提取句子的名词,动词,形容词和副词。 提取中名词 数学科学学科 动词 是 形谷词:严谨 提取中名词 :数学思维 :学习要求 形容词 谨 得到每个匹配对的语义距离值后,将其语义距离转化为两个单词的相似度值。使用公式 即认为单词间的相似度与单词的语义距离成反比。为调芍参数。通过此公式将两个单 词问的语义距离转化为相似度值。 单词语义相似度计算的基本思想为: 设个句子和 包含的单词为 包含的单词为 则单词≤和之间的相似度可以用 来 表小,这样就得到两个伺子中任意个单词的相似度, 句」之间的单词语义相似度 为 山国武技论文在线 若两个句子中之一缺少相同词性的单词,则不进行该单词的匹配计算。 般说来,动词在句子的中的贞献较大,在句子中起决定成分,其次是句子中的名词, 形容词和副词。所以这里在计算句子的相似度时,考虑按该词类对句子的贞献,进行加权处 理。即: + 其中 分别示句了中的动词,名词,形容词和副 分别是对应的参数。这里选择 且 譬如句子:数学是一门科学严谨的学科和学习数学要求思维严 谨经过计算的单词语义相似度值为 词语相似度度计算 上述结构相似度和单词语义相似度计算,未考虑句子的表层词语信息。表层词语信息反 应了两个句了词语形态上的相似程度,是以两个句了中所含的相同关键词的个数来衡量。设 为两个句子,则 的词语相似度为 其中: ()为两个句子中相同关鍵词词的个数,()为句子关键词的个 数 例如句子:我正在读 本萧伯纳写的书 他正在读 本鲁迅写的书 其中:两何中的名词、动词,共现为: 读写书 这样由公式计算出的词语相似度为 特征加权计算 基于句法的特征体现了句子结构信息,单词语义特征则体现组成句子的每个单词深层的 语义信息,而词语特征则体现句子表层信息。我们的目标是,将句子的句法特征、单词语义 特征和词语特征进行整合,全面描述一个句子,从而根据这些特征计算句子与句子之间的相 似度。这里就涉及到如何确定这些特征的权重问题。 在实现了句法特征( ),单词语义特征 ),词语特征( )的相 似度计算后,我们将三特征综合起来进行句子的相似度的计算。相似度的计算公式如下: B× 其中:a、β、y分别表示句法相似度,单词语义相似度和词语相似度的权值。我们的 目标是寻找一组参数组合(a《、B、y)使相似度的计算更加准确 山国武技论文在线 为取得适合各个特征的权重,通过实验对公式中的参数优化而获得在·定范围参数的最 佳组合。具体方法为首先限定(a、β、y)三个参数的取值范围为(,),根据大量实验选 取适当的最佳组合参数 计算结果及分析 实验的测试集为个句子,其中的句为噪音集;另外的句通过手工获得, 构成标准集。标准集中的句子按它们两两的相似程度可以分为组,每一组有或个句 子不等。也就是说,在标准集的组句子中,每组句子都有或个我们认为是相似的 最后我们把标准集和噪音集混杂在一起作为我们的测试集。 对于标准集的组句子,我们按顺序抽出个句子,然后计算这个句子与测试集中的 句子之间的相似度,并按照相似度的结果进行排序,然后观察相似度最大的句子,如果与该 句属于同一类的其它句子都被输出,则说明这个句子的相似度计算是成功的。我们分别用语 义依存的方法和本文的方法做了实验,并把实验结果作了对比。实验结果的计算公式为 其中:是正确率:是测试结果正确的句子数;是测试的句子总数。 表例句相似度 例句对 句法相似度单词语义相似度词语相似度 我爱吃香蕉 我喜欢吃苹果。 跳舞是一种健康的全身运动 全身运动可以保持健康 表句子加权后的相似度 a、B、y的取值 例句相似度 例句相似度 aaaa βBβββ y—yyyy 经过实验计算对比,α、β、γ在范围内广泛取值,综合考虑句子相似度的计算结 果,本文选择a 作为相似度计算的权值,得出的句子相似度的值比 较合理,更符合人的判断结果。 表基于语义依存和基于多特征对比实验结果 方法 语义依存 基于多特征融合 山国武技论文在线 我们对识别错误的句了做进步的观察,发现有些句了是分词错误或是词性标注错误, 这样就造成该词在语义词典中査询不准确或失败,导致计算大败。而且如果句子很长,结构 复杂,句法分析也有失准确性,进而造成相似度计算的不准确。 结论 本文提山的基于多层次特征的语句相似度度量方法综合考察句了的句法,单词语义,词 语三个语言层次的特征的相似度,合理扩展的语句相似度的度量尺度。算法不仅考虑词的局 部相似性,还从语句的整体岀发,宏观考察语句在整体上的相似程度,从而提髙了相似度计 算的准确率。 参考文献 穗志方,俞十汶基于骨榘依存树的语句相似度计算模型中文信息处理国际会议 论文集 北京清华大学出版社 李彬,刘挺,秦兵,李生基于语义依存的汉语句子相似度计算计算机应用研究 张志昌,张宇,刘挺,李生县于浅层语义树核的阅读理解答案句抽取中文信息学报 山国武技论文在线 作者简介:土利局,男,年生,硕士研究生,主要研究方向是自然语言处理。

...展开详情
试读 8P 论文研究-基于语义分析树核的多特征句子相似度计算 .pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
关注 私信
上传资源赚钱or赚积分
最新推荐
论文研究-基于语义分析树核的多特征句子相似度计算 .pdf 23积分/C币 立即下载
1/8
论文研究-基于语义分析树核的多特征句子相似度计算 .pdf第1页
论文研究-基于语义分析树核的多特征句子相似度计算 .pdf第2页

试读结束, 可继续读1页

23积分/C币 立即下载 >