没有合适的资源?快使用搜索试试~ 我知道了~
知识图谱表示学习扩充 刘宾楚1
需积分: 0 0 下载量 190 浏览量
2022-08-04
16:22:53
上传
评论
收藏 539KB PDF 举报
温馨提示
试读
14页
摘要.知识图谱的表示学习能够将图结构的知识图谱数据表示为连续,低维度,实值的向量形式,为知识图谱的研究与应用提供了便利。本文首先通过介绍一些典型的表示学习方法类
资源详情
资源评论
资源推荐
知识图谱表示学习研究综述
刘宾楚 等
摘要
.
知识图谱的表示学习能够将图结构的知识图谱数据表示为连续,低
维度,实值的向量形式,为知识图谱的研究与应用提供了便利。本文首先
通过介绍一些典型的表示学习方法类型,向读者阐述了表示学习的主要思
想。然而知识图谱中除了三元组信息(
fact
),还有许多其他可以利用的
信息,如实体类型,文本描述信息,复杂关系路径,本文向读者介绍了这
些方面典型的表示学习方法,以使读者快速了解表示学习新进展。
关键字
:
知识图谱,表示学习,综述,翻译模型,文本描述信息,实体类
型,复杂关系路径
1 引论
近年来,知识图谱方兴未艾,知识图谱(knowledge graph)具有很强的语义处
理能力,借助于互联网快速发展产生的海量数据,知识图谱这些数据以图亦称
为网络连接起来,构造出强大的知识网络,成为人工智能领域一个重要的研究
分支。
目 前 , 已 经 诞 生 了 许 多 结 构 化 的 知 识 图 谱 , 如 WordNet , Freebase ,
DBpedia,YAGO等等。这些知识图谱成功的应用在现实生活的许多领域:智能
问答系统,信息抽取,语义推断等等。国内外的互联网和计算机领域的知名企
业纷纷推出自己的知识图谱产品,如谷歌,微软,IBM,百度,搜狗等等。
构成知识图谱的最基本的单位是实体和实体之间的关系,也即图中的点和
边,用三元组表示也就是(头实体,关系,尾实体),这是知识图谱表示的通用
方式,符合W3C发布的RDF标准。这种表示方式显然具有图结构的特点,使得
人们对于知识图谱的研究和应用变得困难:其计算效率因为图结构变得低下,
往往需要设计专门的图算法来进行知识图谱的研究和应用。因此将知识图谱中
的图结构转换为向量也即知识图谱表示学习具有相当重要的研究价值和意义。
在2016年已经有清华大学刘知远等人对知识图谱表示学习做了综述[1],然而
时光荏苒,表示学习领域发生了一些新变化,本文将对表示学习领域新的研究
成果做出展示,首先阐述一系列经典模型,并且指出了其若干不足之处,接着
阐述了若干这些不足所提出的一些模型,并且针对每一种模型指出了其改进之
处和应用。最后本文对每种类型的表示学习方法做出总结。
2
2
问题描述
2.1 知识图谱表示学习的定义
因为KG具有图结构的性质,为相关研究和应用带来不便,研究者们希望使用
向量的数据形式表示知识图谱中的实体和关系,一些简单的表示方法,如独
热表示(one-hot representation)[3]在文本数据中得到了很好的应用,但是对
于图结构的知识图谱来说,它具有数据稀疏的问题,并且该模型假设实体间
相互正交,也即实体间互无关系,显然不符合知识图谱的现实情况。为了更
好的表示知识图谱中的数据,我们需要将其表示成:低维,实值,连续的向
量表示,这也就是表示学习的目标和任务,而这一过程也可以看作将KG中的
数据从原先空间中,投影或嵌入至另一个低维,连续,实值的空间中(如
Fig.1所示)。因此KG的表示学习也叫做知识图谱嵌入(Knowledge Graph
Embedding)。总而言之,知识图谱的表示学习就是将知识图谱中的实体和
关系对应或者嵌入到低维空间的过程。
Fig. 1.
知识图谱表示学习图解
2.2 知识图谱表示学习的优点
通过知识图谱表示学习,将实体和关系投影到低维空间中,为知识图谱的研究
与应用带来了一下的优点与便利
提高计算效率:知识图谱的图结构表示需要设计专门的图算法来研究和应
用实体之间的语义和推理关系,计算复杂度比较高,但是通过表示学习RL
得到数据的低维表示,可以得到更好的数学性质,高效的实现语义相似度
计算等操作,明显的提高了计算效率
减轻数据稀疏的性质:知识图谱的图结构三元组表示本质上是基于独热表
示的,这产生了严重的数据稀疏问题,而表示学习将数据投影嵌入到低维
空间:低维空间中每个单独的一个维度都没有意义,但是将所有唯独组合
成一个向量则能够表示一个实体或者是关系,因此这种表示也叫做分布式
表示(distributed representation)。由此低维空间中的数据更加稠密,缓解
了数据稀疏的问题。
3
2.3 常用符号定义
在本节,我们将要定义几种在本文中常用到的符号。首先将知识图谱KG表示
为
,其中
表示知识图谱中实体的集合,其中
表示实体的个数,类似的R和S表示知识图谱中关系和三元组的集合,其中三元
组的集合也就是图中边的集合。本文中将三元组表示为
,分别表示头实
体,关系,尾实体,比如
,头实体和尾实体在低维
空间中的向量表示分别为
。
2.4 模型评价标准
得到模型后,大多数论文都采用链接预测的效果来描述模型的好坏。假设整个
知识库中一共有n个实体,那么评价过程如下:
将一个正确的三元组a中的头实体或者尾实体,依次替换为整个知识库中的
所有其它实体,也就是会产生n个三元组。
分别对上述n个三元组计算其损失函数值。
对上述n个三元组对应的损失函数值进行升序排序。
记录三元组a的损失函数值排序后的序号。
对所有的正确的三元组重复上述过程。
对每个正确三元组的损失函数值排序后的序号求平均,得到的值我们称为
Mean Rank。
计算正确三元组的损失函数值排序后的序号小于10的比例,得到的值我们
称为Hits@10。
那么Mean Rank和Hits@10就是常用的两个表示学习模型的评价指标。显然Mean
Rank反映了一个平均水平,其数值越小则模型越优秀,而Hits@10则是越大越
好。
3
传统知识图谱表示学习方法
本节介绍的一些知识图谱表示学习方法都只用到了知识图谱中所包含的三元
组信息,也即(头实体,关系,尾实体)信息,因此将这种方法成为传统知识
图谱表示学习方法。
3.1 张量神经网络模型(neural tensor network, NTN)
张量神经网络模型(neural tensor network, NTN)的基本思想是:用双线性张量取
代传统神经网络中的线性变换层,在不同纬度下将头实体、尾实体向量联系起
来。其基本思想如下图所示:
剩余13页未读,继续阅读
巧笑倩兮Evelina
- 粉丝: 25
- 资源: 336
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0