基于语义信息内容的FCA概念相似度计算方法(2015年)资源-CSDN文库

需积分: 9 10 浏览量 2021-04-29 00:33:50 上传评论收藏 1.38MB PDF 举报

基于概率信息内容的FCA概念相似度计算方法依赖于语料库中概念的频次信息，这种方法仅使用出现概率作为信息内容度量指标计算FCA概念相似度，其计算结果的准确率不高。针对上述问题提出一种基于语义信息内容的FCA概念相似度计算方法，该方法利用本体中概念间的上下位语义关系度量信息内容，以进一步提高概念一般/具体程度的度量精度；然后在本体派生的ISA层次结构上计算语义信息内容相似度，从而避免基于概率信息内容的方法对语料库的依赖；最后把语义信息内容相似度作为度量FCA概念相似度的依据，并给出了通过构造带权二部图提高相似 ### 基于语义信息内容的FCA概念相似度计算方法 #### 一、引言随着信息技术的发展，如何有效地处理和理解大量的文本信息变得越来越重要。在这一背景下，形式概念分析（Formal Concept Analysis, FCA）作为一种数学工具被广泛应用于数据挖掘、知识发现等领域。然而，在FCA中衡量不同概念之间的相似度是一项挑战性任务。传统的基于概率信息内容的方法虽然简单易行，但其准确性受到语料库中概念频次的影响，往往不能达到理想的精确度。为了解决这个问题，本文提出了一种基于语义信息内容的概念相似度计算方法。 #### 二、传统方法的问题传统的基于概率信息内容的概念相似度计算方法依赖于语料库中的统计信息。这种方法的核心思想是将概念的出现频率视为衡量其信息含量的标准，即概念出现得越频繁，其信息含量就越低。然而，这种方法存在明显的缺陷： 1. **依赖于语料库**：由于计算依赖于概念在特定语料库中的出现次数，因此对于不同的语料库可能会得到不同的结果。 2. **缺乏语义考量**：仅考虑出现频率而忽略了概念之间的语义关系，可能导致两个概念即使在语义上非常相似，但由于它们的出现频率不同，其相似度得分也会较低。 3. **精度不足**：只使用频率信息作为唯一标准，无法准确地反映概念的一般性和具体性的差异。 #### 三、基于语义信息内容的概念相似度计算方法为了解决上述问题，本文提出了一种基于语义信息内容的FCA概念相似度计算方法。该方法主要包含以下几个步骤： 1. **利用本体中的语义关系度量信息内容**：不同于传统方法仅仅依赖概念的出现概率，新的方法利用了概念之间在本体中的上下位语义关系来度量信息内容。这意味着更具体的概念会拥有更高的信息内容值，而更通用的概念则相反。这种方式能够更准确地反映概念的“含义”丰富度。 2. **在ISA层次结构上计算语义信息内容相似度**：这种方法避免了对语料库的依赖，因为它是基于本体内部的语义关系进行计算的。ISA（Is-A）层次结构提供了一个清晰的概念分类框架，使得计算更加直观且具有语义意义。 3. **通过构造带权二部图提高相似度计算效率**：为了进一步提高计算效率，可以通过构建带权二部图的方式来进行优化。这种图形表示方式可以有效地捕捉到概念之间的复杂关系，同时减少不必要的计算步骤。 4. **实验验证**：通过对一系列实验结果的分析，证明了基于语义信息内容的方法能够在不牺牲时间性能的前提下显著提高FCA概念相似度计算结果的准确率。 #### 四、关键技术点 - **本体中的语义关系**：利用本体中的概念之间的上下位语义关系来度量信息内容，提高概念一般/具体程度的度量精度。 - **ISA层次结构**：在本体派生的ISA层次结构上计算语义信息内容相似度，避免了对语料库的依赖。 - **带权二部图**：通过构造带权二部图的方式提高相似度计算效率。 #### 五、结论本文提出了一种基于语义信息内容的FCA概念相似度计算方法，旨在克服传统基于概率信息内容方法的局限性。通过利用概念之间的上下位语义关系以及ISA层次结构，这种方法不仅提高了概念相似度计算的准确性，还减少了对特定语料库的依赖。此外，通过构造带权二部图进一步提升了计算效率。实验结果显示，这种方法能够在保持计算效率的同时显著提高FCA概念相似度计算的准确性。

资源推荐

资源详情

资源评论

　　收稿日期：２０１４０２１８；修回日期：２０１４０３２６　　基金项目：国家科技支撑计划资助项目（２０１２ＢＡＨ０８Ｂ０２）；河南省科技攻关项目

（０８２４００４２０２５０，１１２３００４１０００８）；河南省教育厅科学技术研究重点项目（１３Ａ５２０５０８）；河南师范大学博士科研启动基金资助项目（ｑｄ１２１０７）

　　作者简介：黄宏涛（１９８０），男，河南漯河人，副教授，博士，主要研究方向为问答系统、模型检测（ｈｕａｎｇｈｔ＠ｏｕｔｌｏｏｋ．ｃｏｍ）；程清杰（１９９０），女，河

南安阳人，硕士研究生，主要研究方向为数据挖掘；万庆生（１９７５），男，黑龙江哈尔滨人，博士研究生，主要研究方向为问答系统、数据挖掘；黄少滨

（１９６５），男，黑龙江哈尔滨人，教授，博导，博士，主要研究方向为数据挖掘、模型检测．

基于语义信息内容的ＦＣＡ概念相似度计算方法



黄宏涛

１

，程清杰

１

，万庆生

２

，黄少滨

２

（１．河南师范大学河南省高校教育信息工程技术研究中心，河南新乡４５３００７；２．哈尔滨工程大学计算机科学

与技术学院，哈尔滨１５０００１）

摘　要：基于概率信息内容的ＦＣＡ概念相似度计算方法依赖于语料库中概念的频次信息，这种方法仅使用出

现概率作为信息内容度量指标计算ＦＣＡ概念相似度，其计算结果的准确率不高。针对上述问题提出一种基于

语义信息内容的ＦＣＡ概念相似度计算方法，该方法利用本体中概念间的上下位语义关系度量信息内容，以进一

步提高概念一般／具体程度的度量精度；然后在本体派生的ＩＳＡ层次结构上计算语义信息内容相似度，从而避免

基于概率信息内容的方法对语料库的依赖；最后把语义信息内容相似度作为度量

ＦＣＡ概念相似度的依据，并给

出了通过构造带权二部图提高相似度计算效率的方法。实验结果表明使用基于语义信息内容的方法能够在不

牺牲时间性能的前提下有效提高

ＦＣＡ概念相似度计算结果的准确率。

关键词：ＦＣＡ概念相似度；信息内容；概率；语义；层次结构

中图分类号：ＴＰ３９１．１　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０１５）０３０７３１０５

ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１３６９５．２０１５．０３．０２１

ＦＣＡｃｏｎｃｅｐｔｓｉｍｉｌａｒｉｔｙｃｏｍｐｕｔａｔｉｏｎｂａｓｅｄｏｎｓｅｍａｎｔｉｃｉｎｆｏｒｍａｔｉｏｎｃｏｎｔｅｎｔ

ＨＵＡＮＧＨｏｎｇｔａｏ

１

，ＣＨＥＮＧＱｉｎｇｊｉｅ

１

，ＷＡＮＱｉｎｇｓｈｅｎｇ

２

，ＨＵＡＮＧＳｈａｏｂｉｎ

２

（１．ＥｎｇｉｎｅｅｒｉｎｇＲｅｓｅａｒｃｈＣｅｎｔｅｒｏｆＨｅｎａｎＰｒｏｖｉｎｃｉａｌＵｎｉｖｅｒｓｉｔｉｅｓｆｏｒＥｄｕｃａｔｉｏｎＩｎｆｏｒｍａｔｉｏｎ，ＨｅｎａｎＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，ＸｉｎｘｉａｎｇＨｅｎａｎ

４５３００７，Ｃｈｉｎａ；２．ＣｏｌｌｅｇｅｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ＆Ｔｅｃｈｎｏｌｏｇｙ，ＨａｒｂｉｎＥｎｇｉｎｅｅｒｉｎｇＵｎｉｖｅｒｓｉｔｙ，Ｈａｒｂｉｎ１５０００１，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：ＴｈｅＦＣＡｃｏｎｃｅｐｔｓｉｍｉｌａｒｉｔｙｃｏｍｐｕｔａｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎｐｒｏｂａｂｉｌｉｔｙｉｎｆｏｒｍａｔｉｏｎｃｏｎｔｅｎｔｒｅｌｉｅｄｏｎｔｈｅｆｒｅｑｕｅｎｃｙｏｆ

ｃｏｎｃｅｐｔｓｉｎｃｏｒｐｕｓ，ｔｈｉｓｍｅｔｈｏｄｔｏｏｋｏｎｌｙｔｈｅｏｃｃｕｒｒｅｎｃｅｐｒｏｂａｂｉｌｉｔｙａｓｉｎｆｏｒｍａｔｉｏｎｃｏｎｔｅｎｔｍｅｔｒｉｃｔｏｃｏｍｐｕｔｅＦＣＡｃｏｎｃｅｐｔ

ｓｉｍｉｌａｒｉｔｙ，ｗｈｉｃｈｍａｄｅｔｈｅａｃｃｕｒａｃｙｏｆｃｏｍｐｕｔｉｎｇｒｅｓｕｌｔｓｗａｓｎｏｔｈｉｇｈ．Ｉｎｏｒｄｅｒｔｏｉｍｐｒｏｖｅｔｈｅａｃｃｕｒａｃｙｏｆｐｒｏｂａｂｉｌｉｔｙｂａｓｅｄ

ｍｅｔｈｏｄ，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａｓｅｍａｎｔｉｃｉｎｆｏｒｍａｔｉｏｎｃｏｎｔｅｎｔｂａｓｅｄＦＣＡｃｏｎｃｅｐｔｓｉｍｉｌａｒｉｔｙｃｏｍｐｕｔａｔｉｏｎｍｅｔｈｏｄ．Ｔｈｅｍｅｔｈｏｄｕ

ｔｉｌｉｚｅｄｔｈｅｓｕｐｅｒｏｒｄｉｎａｔｅａｎｄｓｕｂｏｒｄｉｎａｔｅｓｅｍａｎｔｉｃｒｅｌａｔｉｏｎｓｈｉｐｏｆｃｏｎｃｅｐｔｓｔｏｍｅａｓｕｒｅｉｎｆｏｒｍａｔｉｏｎｃｏｎｔｅｎｔ，ｗｈｉｃｈｉｍｐｒｏｖｅｄｔｈｅ

ａｃｃｕｒａｃｙｏｆｔｈｅｇｅｎｅｒｉｃａｎｄｓｐｅｃｉｆｉｃｄｅｇｒｅｅｏｆｃｏｎｃｅｐｔｓ．ＴｈｅｎｉｔｃｏｍｐｕｔｅｄｔｈｅｓｅｍａｎｔｉｃｉｎｆｏｒｍａｔｉｏｎｃｏｎｔｅｎｔｓｉｍｉｌａｒｉｔｙｏｎＩＳＡ

ｈｉｅｒａｒｃｈｙｄｅｒｉｖｅｄｆｒｏｍｏｎｔｏｌｏｇｙ

，ｗｈｉｃｈａｖｏｉｄｅｄｔｈｅｄｅｐｅｎｄｅｎｃｅｏｆｐｒｏｂａｂｉｌｉｔｙｉｎｆｏｒｍａｔｉｏｎｃｏｎｔｅｎｔｍｅｔｈｏｄｏｎｃｏｒｐｕｓ．Ｆｉｎａｌｌｙ，

ｔｈｉｓｍｅｔｈｏｄｔｏｏｋｓｅｍａｎｔｉｃｉｎｆｏｒｍａｔｉｏｎｃｏｎｔｅｎｔａｓａｍｅａｓｕｒｅｔｏｃｏｍｐｕｔｅｔｈｅＦＣＡｃｏｎｃｅｐｔｓｉｍｉｌａｒｉｔｙ，ａｎｄｉｎｔｒｏｄｕｃｅｄａｗｅｉｇｈｔｅｄ

ｂｉｐａｒｔｉｔｅｇｒａｐｈｃｏｎｓｔｒｕｃｔｉｏｎｍｅｔｈｏｄｔｏｉｍｐｒｏｖｅｔｈｅｅｆｆｉｃｉｅｎｃｙｏｆｓｉｍｉｌａｒｉｔｙｃｏｍｐｕｔａｔｉｏｎ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｉｓｓｅ

ｍａｎｔｉｃｉｎｆｏｒｍａｔｉｏｎｃｏｎｔｅｎｔｂａｓｅｄＦＣＡｃｏｎｃｅｐｔｓｉｍｉｌａｒｉｔｙｃｏｍｐｕｔａｔｉｏｎｍｅｔｈｏｄｉｍｐｒｏｖｅｓｔｈｅａｃｃｕｒａｃｙｏｆｐｒｏｂａｂｉｌｉｔｙｉｎｆｏｒｍａｔｉｏｎ

ｃｏｎｔｅｎｔｂａｓｅｄｍｅｔｈｏｄｅｆｆｅｃｔｉｖｅｌｙｗｉｔｈｏｕｔｓａｃｒｉｆｉｃｉｎｇｔｉｍｅｐｅｒｆｏｒｍａｎｃｅ．

Ｋｅｙｗｏｒｄｓ：ＦＣＡｃｏｎｃｅｐｔｓｉｍｉｌａｒｉｔｙ；ｉｎｆｏｒｍａｔｉｏｎｃｏｎｔｅｎｔ；ｐｒｏｂａｂｉｌｉｔｙ；ｓｅｍａｎｔｉｃ；ｈｉｅｒａｒｃｈｙ

　引言

形式概念分析（ｆｏｒｍａｌｃｏｎｃｅｐｔａｎａｌｙｓｉｓ，ＦＣＡ）是一种数据

分析的有效工具，是人工智能领域研究人员关注的焦点之一，

目前在信息检索、数据挖掘、软件工程等领域有着广泛的应用。

概念相似度计算是

ＦＣＡ应用过程中的核心问题，文献［１～３］

使用相似度图进行ＦＣＡ概念相似度计算，这种方法能够精确

地区分ＦＣＡ概念间的相似程度。但是这种相似度计算方法依

赖于人工方式构建相似度图，而相似度图的构建是一个耗时且

容易出错的环节。为了解决上述问题，

Ｆｏｒｍｉｃａ

［４，５］

提出了一种

基于信息内容的方法，该方法是对文献［６］的细化。与文献

［６］不同的是，这种方法使用概念在语料库中出现的概率来度

量信息内容，从而为计算

ＦＣＡ概念间的相似度提供依据。这

种方法使用的相似度度量标准和领域专家的相似度知识无关，

能够避免基于相似度图的方法对领域专家的依赖，进一步提高

了领域

ＦＣＡ概念相似度计算的自动化程度和效率。但是这种

基于概率信息内容的方法仅使用概念在语料库中的出现概率

作为计算ＦＣＡ概念相似度的依据，其准确率还有提升的空间。

文献［７，８］提出了一种新的信息内容度量模型，该模型依

赖于已经按照认知显著性原则组织的分层结构本体

［９］

。当一

个概念需要和已经存在的概念区分开时，它就显得更加特殊，

所以拥有较多下位词的概念所包含的信息容量要少于层次结

构中的叶子节点，原因是叶子节点不需要再与其他概念作进一

步的区分。Ｓáｎｃｈｅｚ等人

［１０］

在上述信息内容计算模型基础上

又进一步进行改进，提出了一种基于上／下位词语义关系的信

第３２卷第３期

２０１５年３月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ．３２Ｎｏ．３

Ｍａｒ．２０１５

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余4页未读，立即下载

评论收藏

内容反馈

weixin_38726712

粉丝: 2
资源: 958

基于语义信息内容的FCA概念相似度计算方法 (2015年)

最新资源

基于语义信息内容的FCA概念相似度计算方法 (2015年)

论文研究-基于语义信息内容的FCA概念相似度计算方法.pdf

论文研究-一个基于语义元的相似度计算方法研究.pdf

基于知网的词汇语义相似度计算方法研究_葛斌

基于概念格的概念相似度计算

论文研究-基于主题词表和FCA的网页语义概念树构建研究.pdf

FCA-Java_FCA_形式概念分析_

电信设备-一种基于概念格的异构空间信息服务分类的语义匹配方法.zip

基于语义树的概念语义相似度计算方法研究

论文研究-基于词项语义组合的文本相似度计算方法研究.pdf

基于形式概念分析和语义关联规则的目标图像标注.docx

计算机研究 -形式概念分析在突发事件新闻文本聚类中的应用.pdf

一种基于分布式rough本体的语义相似度计算方法.pdf

基于维基百科的语义相似度计算方法 (2011年)

论文研究-基于信息熵的约简概念格渐进式构造.pdf

使用有界传递相似性图计算FCA概念之间的相似性

模糊聚类分析程序-FCA.rar

论文研究-基于RDFS的本体集成方法.pdf

最新资源