【免费】知识图谱技术综述_徐增林1资源-CSDN文库

需积分: 0 172 浏览量 2022-08-04 14:54:40 上传评论收藏 838KB PDF 举报

资源详情

资源评论

资源推荐

第 45 卷第 4 期电子科技大学学报 Vol.45 No.4

2016年7月 Journal of University of Electronic Science and Technology of China Jul. 2016

知识图谱技术综述

徐增林

，盛泳潘

，贺丽荣

，王雅芳



(1. 电子科技大学统计机器智能与学习实验室成都 611731；2. 山东大学计算机科学与技术学院济南 250101)

【摘要】知识图谱技术是人工智能技术的重要组成部分，其建立的具有语义处理能力与开放互联能力的知识库，可在智

能搜索、智能问答、个性化推荐等智能信息服务中产生应用价值。该文在全面阐述知识图谱定义、架构的基础上，综述知识

图谱中的知识抽取、知识表示、知识融合、知识推理四大核心技术的研究进展以及一些典型应用。该文还将评论当前研究存

在的挑战。

关键词知识融合; 知识图谱技术; 知识表示; 开放互联; 语义处理

中图分类号 TP182 文献标志码 A doi:10.3969/j.issn.1001-0548.2016.04.012

Review on Knowledge Graph Techniques

XU Zeng-lin

, SHENG Yong-pan

, HE Li-rong

, and WANG Ya-fang

(1. Statistical Machine Intelligence & Learning, University of Electronic Science and Technology of China Chengdu 611731;

2. School of Computer Science and Technology, Shandong University Jinan 250101)

Abstract Knowledge graph technology is a critical part of artificial intelligence research. It establishes a

knowledge base with the capacity of semantic processing and open interconnection in order to provide intelligent

information service, such as search, question-answering, personalized recommendation, and so on. This article first

presents a comprehensive study on definitions and architectures of knowledge graphs. Then we summarizes recent

advances in knowledge graphs, including knowledge extraction, knowledge representation, knowledge fusion, and

knowledge reasoning, with typical applications. Finally, this article concludes with future challenges of knowledge

graphs.

Key words knowledge fusion; knowledge graph techniques; knowledge representation; open

interconnection; semantic processing

收稿日期：2016  05  15

基金项目：国家自然科学基金(61572111)；中央高校基础科研经费(ZYGX2014J058)

作者简介：徐增林(1980  )，男，博士，教授，主要从事机器学习及其在社会网络分析、互联网、计算生物学、信息安全等方面的研究.

伴随着Web技术的不断演进与发展，人类先后

经历了以文档互联为主要特征的“Web 1.0”时代与

数据互联为特征的“Web 2.0”时代，正在迈向基于

知识互联的崭新“Web 3.0”时代

[1]

。知识互联的目

标是构建一个人与机器都可理解的万维网，使得人

们的网络更加智能化。然而，由于万维网上的内容

多源异质，组织结构松散，给大数据环境下的知识

互联带来了极大的挑战。因此，人们需要根据大数

据环境下的知识组织原则

[2]

，从新的视角去探索既

符合网络信息资源发展变化又能适应用户认知需求

的知识互联方法

[3]

，从更深层次上揭示人类认知的

整体性与关联性

[4]

。知识图谱(knowledge graph)以其

强大的语义处理能力与开放互联能力，可为万维网

上的知识互联奠定扎实的基础，使Web 3.0提出的

“知识之网”愿景成为了可能。

知识图谱并非是一个全新的概念，早在2006年，

文献[5]就提出了语义网的概念，呼吁推广、完善使

用本体模型来形式化表达数据中的隐含语义，RDF

(resource description framework)模式(RDF schema)

和万维网本体语言(Web ontology language，OWL)

的形式化模型就是基于上述目的产生的。随后掀起

了一场语义网研究的热潮，知识图谱技术的出现正

是基于以上相关研究，是对语义网标准与技术的一

次扬弃与升华。

知识图谱于2012年5月17日被Google正式提出

[6]

，

其初衷是为了提高搜索引擎的能力，增强用户的搜

索质量以及搜索体验。目前，随着智能信息服务应

用的不断发展，知识图谱已被广泛应用于智能搜索、

智能问答、个性化推荐等领域。尤其是在智能搜索

中，用户的搜索请求不再局限于简单的关键词匹配，

电子科技大学学报第 45 卷

590

搜索将根据用户查询的情境与意图进行推理，实现

概念检索。与此同时，用户的搜索结果将具有层次

化、结构化等重要特征。例如，用户搜索的关键词

为梵高，引擎就会以知识卡片的形式给出梵高的详

细生平、艺术生涯信息、不同时期的代表作品，并

配合以图片等描述信息。知识图谱能够使计算机理

解人类的语言交流模式，从而更加智能地反馈用户

需要的答案

[7]

。与此同时，通过知识图谱能够将Web

上的信息、数据以及链接关系聚集为知识，使信息

资源更易于计算、理解以及评价，并且形成一套Web

语义知识库。

本文的第一部分将沿着前面叙述，进一步剖析

知识图谱的定义与架构；第二部分将以开放链接知

识库、垂直行业知识这两类主要的知识库类型为代

表，简要介绍其中的几个知名度较高的大规模知识

库；第三部分将以知识图谱中的关键技术为重点，

详细阐述知识获取、知识表示、知识融合、知识推

理技术中的相关研究以及若干技术细节；第四部分

将介绍知识图谱在智能搜索、深度问答、社交网络

以及垂直行业中的典型应用；第五部分将介绍知识

图谱所面临的一些困难与挑战；第六部分将对全文

的内容进行总结。

1 知识图谱的定义与架构

1.1 知识图谱的定义

在维基百科的官方词条中：知识图谱是Google

用于增强其搜索引擎功能的知识库

[8]

。本质上，知

识图谱是一种揭示实体之间关系的语义网络，可以

对现实世界的事物及其相互关系进行形式化地描

述。现在的知识图谱已被用来泛指各种大规模的知

识库。

三元组是知识图谱的一种通用表示方式，即

(,,)GERS ，其中

12 |E|

{, , , }

ee e 

是知识库中的

实体集合，共包含||E 种不同实体；

12 |E|

{, , , }Rrr r 

是知识库中的关系集合，共包含||R 种不同关系；

SERE代表知识库中的三元组集合。三元组

的基本形式主要包括实体1、关系、实体2和概念、

属性、属性值等，实体是知识图谱中的最基本元素，

不同的实体间存在不同的关系。概念主要指集合、

类别、对象类型、事物的种类，例如人物、地理等；

属性主要指对象可能具有的属性、特征、特性、特

点以及参数，例如国籍、生日等；属性值主要指对

象指定属性的值，例如中国、1988-09-08等。每个实

体(概念的外延)可用一个全局唯一确定的ID来标

识，每个属性-属性值对(attribute-value pair，AVP )

可用来刻画实体的内在特性，而关系可用来连接两

个实体，刻画它们之间的关联。

就覆盖范围而言，知识图谱也可分为通用知识

图谱和行业知识图谱。通用知识图谱注重广度，强

调融合更多的实体，较行业知识图谱而言，其准确

度不够高，并且受概念范围的影响，很难借助本体

库对公理、规则以及约束条件的支持能力规范其实

体、属性、实体间的关系等。通用知识图谱主要应

用于智能搜索等领域。行业知识图谱通常需要依靠

特定行业的数据来构建，具有特定的行业意义。行

业知识图谱中，实体的属性与数据模式往往比较丰

富，需要考虑到不同的业务场景与使用人员。

1.2 知识图谱的架构

知识图谱的架构主要包括自身的逻辑结构以及

体系架构，分别说明如下。

1) 知识图谱的逻辑结构

知识图谱在逻辑上可分为模式层与数据层两个

层次，数据层主要是由一系列的事实组成，而知识

将以事实为单位进行存储。如果用(实体1，关系，

实体2)、(实体、属性，属性值)这样的三元组来表达

事实，可选择图数据库作为存储介质，例如开源的

Neo4j

[9]

、Twitter的FlockDB

[10]

、sones的GraphDB

[11]

等。模式层构建在数据层之上，主要是通过本体库

来规范数据层的一系列事实表达。本体是结构化知

识库的概念模板，通过本体库而形成的知识库不仅

层次结构较强，并且冗余程度较小。

2) 知识图谱的体系架构

知识图谱的体系架构是其指构建模式结构，如

图1所示。其中虚线框内的部分为知识图谱的构建过

程，该过程需要随人的认知能力不断更新迭代。

知识图谱主要有自顶向下(top-down)与自底向

上(bottom-up)两种构建方式。自顶向下指的是先为

知识图谱定义好本体与数据模式，再将实体加入到

知识库。该构建方式需要利用一些现有的结构化知

识库作为其基础知识库，例如Freebase项目就是采用

这种方式，它的绝大部分数据是从维基百科中得到

的。自底向上指的是从一些开放链接数据中提取出

实体，选择其中置信度较高的加入到知识库，再构

建顶层的本体模式

[12]

。目前，大多数知识图谱都采

用自底向上的方式进行构建，其中最典型就是

Google的Knowledge Vault

[13]

。

第4期徐增林，等: 知识图谱技术综述

591

结构化的数据

半结构化的数据

非结构化的数据

实体抽取

关系抽取

属性抽取

数据整合

实体对齐

知识推理

第三方数据库

本体构建质量评估

知识图谱

知识更新知识检索

知识抽取

知识融合

图1 知识图谱的体系架构

2 大规模知识库

随着语义Web资源数量激增、大量的RDF数据

被发布和共享、LOD(linked open data)等项目的全面

展开

[14]

，学术界与工业界的研究人员花费了大量的

精力构建各种结构化的知识库。下面将以开放链接

知识库、行业知识库这两类主要的知识库类型为代

表，详细说明其中的几个知名度较高的大规模知

识库。

2.1 开放链接知识库

在LOD项目的云图中，Freebase、Wikidata、

DBpedia、YAGO这4个大规模知识库处于绝对核心

的地位，它们中不仅包含大量的半结构化、非结构

化数据，是知识图谱数据的重要来源。而且具有较

高的领域覆盖面，与领域知识库存在大量的链接关

系。

1) Freebase

Freebase知识库

[15]

早期由Metaweb公司创建，后

来被Google收购，成为Google知识图谱的重要组成

部分。Freebase中的数据主要是由人工构建，另外一

部分数据则主要来源于维基百科、IMDB、Flickr等

网站或语料库。截止到2014年年底，Freebase已经包

含了6 800万个实体，10亿条关系信息，超过24亿条

事实三元组信息，在2015年6月，Freebase整体移入

至WikiData。

2) Wikidata

Wikidata

[16]

是维基媒体基金会主持的一个自由

的协作式多语言辅助知识库，旨在为维基百科、维

基共享资源以及其他的维基媒体项目提供支持。它

是Wikipedia、Wikivoyage、Wikisource中结构化数据

的中央存储器，并支持免费使用

[17]

。Wikidata中的

数据主要以文档的形式进行存储，目前已包含了超

过1 700万个文档。其中的每个文档都有一个主题或

一个管理页面，且被唯一的数字标识。

3) DBpedia

DBpedia

[18]

是由德国莱比锡大学和曼海姆大学

的科研人员创建的多语言综合型知识库，在LOD项

目中处于最核心的地位。DBpedia是从多种语言的维

基百科中抽取结构化信息，并且将其以关联数据的

形式发布到互联网上，提供给在线网络应用、社交

网站以及其他在线知识库。由于DBpedia的直接数据

来源覆盖范围广阔，所以它包含了众多领域的实体

信息。截止至2014年年底，DBpedia中的事实三元组

数量已经超过了30亿条。除上述优点外，DBpedia

还能够自动与维基百科保持同步，覆盖多种语言。

4) YAGO

YAGO

[19]

是由德国马普所(max planck institute，

MPI)的科研人员构建的综合型知识库。YAGO整合

了维基百科、WordNet

[20]

以及GeoNames等数据源，

特别是将维基百科中的分类体系与WordNet的分类

体系进行了融合，构建了一个复杂的类别层次结构

体系。第一个版本包含了超过100万的实体以及超过

500万的事实。2012年，发布了它的第二个版本，在

YAGO的基础上进行了大规模的扩展，引入了一个

新的数据源GeoNames

[21]

，被称为YAG02s。包含了

超过1 000万的实体以及超过1.2亿的事实。

2.2 垂直行业知识库

行业知识库也可称为垂直型知识库，这类知识

库的描述目标是特定的行业领域，通常需要依靠特

定行业的数据才能构建，因此其描述范围极为有限。

剩余17页未读，继续阅读

评论收藏

内容反馈

粉丝: 57
资源: 315

知识图谱技术综述_徐增林1

评论0

最新资源

知识图谱技术综述_徐增林1

评论0

知识图谱技术综述

知识图谱技术综述1

知识图谱综述

知识图谱技术综述-徐增林.pdf

知识图谱技术综述（徐增林, 2016）

知识图谱构建技术综述PPT

虹膜识别专利技术综述_徐雯晖.pdf

知识图谱构建技术综述

面向新闻事件的人物关系分类及图谱构建_徐璨.caj

图卷积神经网络综述_徐冰冰1

自然语言处理预训练技术综述_陈德光.caj

地震波理论_徐仲达地震波理论_徐仲达

面向软件工程知识图谱构建的实体识别方法研究_徐忠锴.caj

技术知识图谱

知识图谱技术综述.pdf

知识图谱综述研究进展

知识图谱的技术与应用

基于机器视觉的镜片缺陷检测与分类技术研究_徐传鹏 (1).caj

可见光通信系统的若干关键技术研究_徐位墅.caj

非正交多址接入中的若干关键技术研究_徐晋.caj

“广而精、顺而全”，文献综述不发愁_徐雯雯.caj

2017310302_第二次_徐茂宾1

最新资源