没有合适的资源?快使用搜索试试~ 我知道了~
【干货】最全知识图谱综述#1:概念以及构建技术.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 151 浏览量
2022-11-02
18:42:28
上传
评论
收藏 1.13MB DOCX 举报
温馨提示
试读
34页
。。。
资源推荐
资源详情
资源评论
【干货】最全知识图谱综述#1:概念以及构建技术
【导读】知识图谱技术是人工智能技术的组成部分,其强大的语
义处理和互联组织能力,为智能化信息应用提供了基础。我们专知的
技术基石之一正是知识图谱-构建 AI 知识体系-专知主题知识树简介。
下面我们特别整理了关于知识图谱的技术全面综述,涵盖基本定义与
架构、代表性知识图谱库、构建技术、开源库和典型应用。主要基于
的参考文献来自[22]和[40], 本人(Quan)做了部分修整。
引言
随着互联网的发展,网络数据内容呈现爆炸式增长的态势。由于
互联网内容的大规模、异质多元、组织结构松散的特点,给人们有效
获取信息和知识提出了挑战。知识图谱( Knowledge Graph) 以其强
大的语义处理能力和开放组织能力,为互联网时代的知识化组织和智
能应用奠定了基础。最近,大规模知识图谱库的研究和应用在学术界
和工业界引起了足够的注意力 [1-5]。一个知识图谱旨在描述现实世界
中存在的实体以及实体之间的关系。知识图谱于 2012 年 5 月 17 日由
[Google]正式提出[6],其初衷是为了提高搜索引擎的能力,改善用户
的搜索质量以及搜索体验。随着人工智能的技术发展和应用,知识图
谱作为关键技术之一,已被广泛应用于智能搜索、智能问答、个性化
推荐、内容分发等领域。
知识图谱的定义
在维基百科的官方词条中:知识图谱是 Google 用于增强其搜索引
擎功能的知识库。本质上, 知识图谱旨在描述真实世界中存在的各种实
体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概
念,边则由属性或关系构成。现在的知识图谱已被用来泛指各种大规
模的知识库。 在具体介绍知识图谱的定义,我们先来看下知识类型的
定义:
知识图谱中包含三种节点:
实体: 指的是具有可区别性且独立存在的某种事物。如某一个人、
某一个城市、某一种植物等、某一种商品等等。世界万物有具体事物
组成,此指实体。如图 1 的“中国”、“美国”、“日本”等。,实
体是知识图谱中的最基本元素,不同的实体间存在不同的关系。
语义类(概念):具有同种特性的实体构成的集合,如国家、民
•
族、书籍、电脑等。 概念主要指集合、类别、对象类型、事物的种类,
例如人物、地理等。
内容: 通常作为实体和语义类的名字、描述、解释等,可以由文
•
本、图像、音视频等来表达。
属性(值): 从一个实体指向它的属性值。不同的属性类型对应于
•
不同类型属性的边。属性值主要指对象指定属性的值。如图 1 所示的
“面积”、“人口”、“首都”是几种不同的属性。属性值主要指对
象指定属性的值,例如 960 万平方公里等。
关系: 形式化为一个函数,它把 kk 个点映射到一个布尔值。在知
•
识图谱上,关系则是一个把 kk 个图节点(实体、语义类、属性值)映射
到布尔值的函数。
基于上述定义。基于三元组是知识图谱的一种通用表示方式,即
,其中
|E|
,是知识库中的实体集合,共包含 种不同实体;
|R|
是知识库中的关系集合,共包含 种不同关系;
代表知识库中的三元组集合。三元组的基本形式主要包括(实体 1-
关系-实体 2)和(实体-属性-属性值)等。每个实体(概念的外延)可用一个
全局唯一确定的 ID 来标识,每个属性-属性值对(attribute-value pair,
AVP)可用来刻画实体的内在特性,而关系可用来连接两个实体,刻画
它们之间的关联。如下图 1 的知识图谱例子所示,中国是一个实体,
北京是一个实体,中国 -首都-北京 是一个(实体-关系-实体)的三元
组样例北京是一个实体 ,人口是一种属性 2069.3 万是属性值。北京-
人口-2069.3 万构成一个(实体-属性-属性值)的三元组样例。
图 1 知识图谱示例
知识图谱的架构
知识图谱的架构包括自身的逻辑结构以及构建知识图谱所采用的
技术(体系)架构。
1) 知识图谱的逻辑结构
知识图谱在逻辑上可分为模式层与数据层两个层次,数据层主要
是由一系列的事实组成,而知识将以事实为单位进行存储。如果用 (实
体 1 ,关系,实体 2)、(实体、属性,属性值)这样的三元组来表达事实,
可选择图数据库作为存储介质,例如开源的 Neo4j[7] 、Twitter 的
FlockDB[8] 、sones 的 GraphDB[9] 等。模式层构建在数据层之上,是
知识图谱的核心,通常采用本体库来管理知识图谱的模式层。本体是
结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构
较强,并且冗余程度较小。
2) 知识图谱的体系架构
图 2 知识图谱的技术架构
知识图谱的体系架构是其指构建模式结构,如图 2 所示。其中虚
线框内的部分为知识图谱的构建过程,也包含知识图谱的更新过程。
知识图谱构建从最原始的数据(包括结构化、半结构化、非结构化数
据)出发,采用一系列自动或者半自动的技术手段,从原始数据库和
第三方数据库中提取知识事实,并将其存入知识库的数据层和模式层,
这一过程包含:信息抽取、知识表示、知识融合、知识推理四个过程,
每一次更新迭代均包含这四个阶段。知识图谱主要有自顶向下 (top-
down)与自底向上 (bottom-up)两种构建方式。自顶向下指的是先为
知识图谱定义好本体与数据模式,再将实体加入到知识库。该构建方
式 需 要 利 用 一 些 现 有 的 结 构 化 知 识 库 作 为 其 基 础 知 识 库 , 例 如
Freebase 项目就是采用这种方式,它的绝大部分数据是从维基百科中
得到的。自底向上指的是从一些开放链接数据中提取出实体,选择其
中置信度较高的加入到知识库,再构建顶层的本体模式 [10]。目前,
大多数知识图谱都采用自底向上的方式进行构建,其中最典型就是
Google 的 Knowledge Vault[11]和微软的 Satori 知识库。现在也符
合互联网数据内容知识产生的特点。
代表性知识图谱库
根据覆盖范围而言,知识图谱也可分为开放域通用知识图谱和垂
直行业知识图谱 [12]。开放通用知识图谱注重广度,强调融合更多的
实体,较垂直行业知识图谱而言,其准确度不够高,并且受概念范围
的影响,很难借助本体库对公理、规则以及约束条件的支持能力规范
其实体、属性、实体间的关系等。通用知识图谱主要应用于智能搜索
等领域。行业知识图谱通常需要依靠特定行业的数据来构建,具有特
定的行业意义。行业知识图谱中,实体的属性与数据模式往往比较丰
富,需要考虑到不同的业务场景与使用人员。下图展示了现在知名度
较高的大规模知识库。
图 3 代表性知识图谱库概览
知识图谱构建的关键技术
大规模知识库的构建与应用需要多种技术的支持。通过知识提取
技术,可以从一些公开的半结构化、非结构化和第三方结构化数据库
的数据中提取出实体、关系、属性等知识要素。知识表示则通过一定
有效手段对知识要素表示,便于进一步处理使用。然后通过知识融合,
可消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质
量的知识库。知识推理则是在已有的知识库基础上进一步挖掘隐含的
知识,从而丰富、扩展知识库。分布式的知识表示形成的综合向量对
知识库的构建、推理、融合以及应用均具有重要的意义。接下来,本
剩余33页未读,继续阅读
资源评论
xxpr_ybgg
- 粉丝: 6456
- 资源: 3万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功