收稿日 期:20140218; 修回 日期:20140326 基金项 目: 国 家科技 支撑计 划资助 项目 (2012BAH08B02);河 南省 科 技攻 关 项目
(082400420250,112300410008);河南省教育厅科学技术研究重点项目(13A520508);河南师范大学博士科研启动基金资助项目(qd12107)
作者简介:黄宏涛(1980),男,河南漯河人,副教授,博士,主要研究方向为问答系统、模型检测(huanght@outlook.com);程清杰(1990),女,河
南安阳人,硕士研究生,主要研究方向为数据挖掘;万庆生(1975),男,黑龙江哈尔滨人,博士研究生,主要研究方向为问答系统、数据挖掘;黄少滨
(1965),男,黑龙江哈尔滨人,教授,博导,博士,主要研究方向为数据挖掘、模型检测.
基于语义信息内容的 FCA概念相似度计算方法
黄宏涛
1
,程清杰
1
,万庆生
2
,黄少滨
2
(1.河南师范大学 河南省高校教育信息工程技术研究中心,河南 新乡 453007;2.哈尔滨工程大学 计算机科学
与技术学院,哈尔滨 150001)
摘 要:基于概率信息内容的 FCA概念相似度计算方法依赖于语料库中概念的频次信息,这种方法仅使用出
现概率作为信息内容度量指标计算 FCA概念相似度,其计算结果的准确率不高。针对上述问题提出一种基于
语义信息内容的 FCA概念相似度计算方法,该方法利用本体中概念间的上下位语义关系度量信息内容,以进一
步提高概念一般 /具体程度的度量精度;然后在本体派生的 ISA层次结构上计算语义信息内容相似度,从而避免
基于概率信息内容的方法对语料库的依赖;最后把语义信息内容相似度作为度量
FCA概念相似度的依据,并给
出了通过构造带权二部图提高相似度计算效率的方法。实验结果表明使用基于语义信息内容的方法能够在不
牺牲时间性能的前提下有效提高
FCA概念相似度计算结果的准确率。
关键词:FCA概念相似度;信息内容;概率;语义;层次结构
中图分类号:TP391.1 文献标志码:A 文章编号:10013695(2015)03073105
doi:10.3969/j.issn.10013695.2015.03.021
FCAconceptsimilaritycomputationbasedonsemanticinformationcontent
HUANGHongtao
1
,CHENGQingjie
1
,WANQingsheng
2
,HUANGShaobin
2
(1.EngineeringResearchCenterofHenanProvincialUniversitiesforEducationInformation,HenanNormalUniversity,XinxiangHenan
453007,China;2.CollegeofComputerScience&Technology,HarbinEngineeringUniversity,Harbin150001,China)
Abstract:TheFCAconceptsimilaritycomputationmethodbasedonprobabilityinformationcontentreliedonthefrequencyof
conceptsincorpus,thismethodtookonlytheoccurrenceprobabilityasinformationcontentmetrictocomputeFCAconcept
similarity,whichmadetheaccuracyofcomputingresultswasnothigh.Inordertoimprovetheaccuracyofprobabilitybased
method,thispaperproposedasemanticinformationcontentbasedFCAconceptsimilaritycomputationmethod.Themethodu
tilizedthesuperordinateandsubordinatesemanticrelationshipofconceptstomeasureinformationcontent,whichimprovedthe
accuracyofthegenericandspecificdegreeofconcepts.ThenitcomputedthesemanticinformationcontentsimilarityonISA
hierarchyderivedfromontology
,whichavoidedthedependenceofprobabilityinformationcontentmethodoncorpus.Finally,
thismethodtooksemanticinformationcontentasameasuretocomputetheFCAconceptsimilarity,andintroducedaweighted
bipartitegraphconstructionmethodtoimprovetheefficiencyofsimilaritycomputation.Experimentalresultsshowthatthisse
manticinformationcontentbasedFCAconceptsimilaritycomputationmethodimprovestheaccuracyofprobabilityinformation
contentbasedmethodeffectivelywithoutsacrificingtimeperformance.
Keywords:FCAconceptsimilarity;informationcontent;probability;semantic;hierarchy
!
引言
形式概念分析(formalconceptanalysis,FCA)是一种数据
分析的有效工具,是人工智能领域研究人员关注的焦点之一,
目前在信息检索、数据挖掘、软件工程等领域有着广泛的应用。
概念相似度计算是
FCA应用过程中的核心问题,文献[1~3]
使用相似度图进行 FCA概念相似度计算,这种方法能够精确
地区分 FCA概念间的相似程度。但是这种相似度计算方法依
赖于人工方式构建相似度图,而相似度图的构建是一个耗时且
容易出错的环节。为了解决上述问题,
Formica
[4,5]
提出了一种
基于信息内容的方法,该方法是对文献[6]的细化。与文献
[6]不同的是,这种方法使用概念在语料库中出现的概率来度
量信息内容,从而为计算
FCA概念间的相似度提供依据。这
种方法使用的相似度度量标准和领域专家的相似度知识无关,
能够避免基于相似度图的方法对领域专家的依赖,进一步提高
了领域
FCA概念相似度计算的自动化程度和效率。但是这种
基于概率信息内容的方法仅使用概念在语料库中的出现概率
作为计算 FCA概念相似度的依据,其准确率还有提升的空间。
文献[7,8]提出了一种新的信息内容度量模型,该模型依
赖于已经按照认知显著性原则组织的分层结构本体
[9]
。当一
个概念需要和已经存在的概念区分开时,它就显得更加特殊,
所以拥有较多下位词的概念所包含的信息容量要少于层次结
构中的叶子节点,原因是叶子节点不需要再与其他概念作进一
步的区分。Sánchez等人
[10]
在上述信息内容计算模型基础上
又进一步进行改进,提出了一种基于上 /下位词语义关系的信
第 32卷第 3期
2015年 3月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol.32No.3
Mar.2015