没有合适的资源?快使用搜索试试~ 我知道了~
知识图谱技术综述_徐增林1
需积分: 0 0 下载量 172 浏览量
2022-08-04
14:54:40
上传
评论
收藏 838KB PDF 举报
温馨提示
试读
18页
【摘要】知识图谱技术是人工智能技术的重要组成部分,其建立的具有语义处理能力与开放互联能力的知识库,可在智能搜索、智能问答、个性化推荐等智能信息服务中产生应用价值
资源详情
资源评论
资源推荐
第 45 卷 第 4 期 电 子 科 技 大 学 学 报 Vol.45 No.4
2016年7月 Journal of University of Electronic Science and Technology of China Jul. 2016
知识图谱技术综述
徐增林
1
,盛泳潘
1
,贺丽荣
1
,王雅芳
2
(1. 电子科技大学统计机器智能与学习实验室 成都 611731;2. 山东大学计算机科学与技术学院 济南 250101)
【摘要】知识图谱技术是人工智能技术的重要组成部分,其建立的具有语义处理能力与开放互联能力的知识库,可在智
能搜索、智能问答、个性化推荐等智能信息服务中产生应用价值。该文在全面阐述知识图谱定义、架构的基础上,综述知识
图谱中的知识抽取、知识表示、知识融合、知识推理四大核心技术的研究进展以及一些典型应用。该文还将评论当前研究存
在的挑战。
关 键 词 知识融合; 知识图谱技术; 知识表示; 开放互联; 语义处理
中图分类号 TP182 文献标志码 A doi:10.3969/j.issn.1001-0548.2016.04.012
Review on Knowledge Graph Techniques
XU Zeng-lin
1
, SHENG Yong-pan
1
, HE Li-rong
1
, and WANG Ya-fang
2
(1. Statistical Machine Intelligence & Learning, University of Electronic Science and Technology of China Chengdu 611731;
2. School of Computer Science and Technology, Shandong University Jinan 250101)
Abstract Knowledge graph technology is a critical part of artificial intelligence research. It establishes a
knowledge base with the capacity of semantic processing and open interconnection in order to provide intelligent
information service, such as search, question-answering, personalized recommendation, and so on. This article first
presents a comprehensive study on definitions and architectures of knowledge graphs. Then we summarizes recent
advances in knowledge graphs, including knowledge extraction, knowledge representation, knowledge fusion, and
knowledge reasoning, with typical applications. Finally, this article concludes with future challenges of knowledge
graphs.
Key words knowledge fusion; knowledge graph techniques; knowledge representation; open
interconnection; semantic processing
收稿日期:2016 05 15
基金项目:国家自然科学基金(61572111);中央高校基础科研经费(ZYGX2014J058)
作者简介:徐增林(1980 ),男,博士,教授,主要从事机器学习及其在社会网络分析、互联网、计算生物学、信息安全等方面的研究.
伴随着Web技术的不断演进与发展,人类先后
经历了以文档互联为主要特征的“Web 1.0”时代与
数据互联为特征的“Web 2.0”时代,正在迈向基于
知识互联的崭新“Web 3.0”时代
[1]
。知识互联的目
标是构建一个人与机器都可理解的万维网,使得人
们的网络更加智能化。然而,由于万维网上的内容
多源异质,组织结构松散,给大数据环境下的知识
互联带来了极大的挑战。因此,人们需要根据大数
据环境下的知识组织原则
[2]
,从新的视角去探索既
符合网络信息资源发展变化又能适应用户认知需求
的知识互联方法
[3]
,从更深层次上揭示人类认知的
整体性与关联性
[4]
。知识图谱(knowledge graph)以其
强大的语义处理能力与开放互联能力,可为万维网
上的知识互联奠定扎实的基础,使Web 3.0提出的
“知识之网”愿景成为了可能。
知识图谱并非是一个全新的概念,早在2006年,
文献[5]就提出了语义网的概念,呼吁推广、完善使
用本体模型来形式化表达数据中的隐含语义,RDF
(resource description framework)模式(RDF schema)
和万维网本体语言(Web ontology language,OWL)
的形式化模型就是基于上述目的产生的。随后掀起
了一场语义网研究的热潮,知识图谱技术的出现正
是基于以上相关研究,是对语义网标准与技术的一
次扬弃与升华。
知识图谱于2012年5月17日被Google正式提出
[6]
,
其初衷是为了提高搜索引擎的能力,增强用户的搜
索质量以及搜索体验。目前,随着智能信息服务应
用的不断发展,知识图谱已被广泛应用于智能搜索、
智能问答、个性化推荐等领域。尤其是在智能搜索
中,用户的搜索请求不再局限于简单的关键词匹配,
电 子 科 技 大 学 学 报 第 45 卷
590
搜索将根据用户查询的情境与意图进行推理,实现
概念检索。与此同时,用户的搜索结果将具有层次
化、结构化等重要特征。例如,用户搜索的关键词
为梵高,引擎就会以知识卡片的形式给出梵高的详
细生平、艺术生涯信息、不同时期的代表作品,并
配合以图片等描述信息。知识图谱能够使计算机理
解人类的语言交流模式,从而更加智能地反馈用户
需要的答案
[7]
。与此同时,通过知识图谱能够将Web
上的信息、数据以及链接关系聚集为知识,使信息
资源更易于计算、理解以及评价,并且形成一套Web
语义知识库。
本文的第一部分将沿着前面叙述,进一步剖析
知识图谱的定义与架构;第二部分将以开放链接知
识库、垂直行业知识这两类主要的知识库类型为代
表,简要介绍其中的几个知名度较高的大规模知识
库;第三部分将以知识图谱中的关键技术为重点,
详细阐述知识获取、知识表示、知识融合、知识推
理技术中的相关研究以及若干技术细节;第四部分
将介绍知识图谱在智能搜索、深度问答、社交网络
以及垂直行业中的典型应用;第五部分将介绍知识
图谱所面临的一些困难与挑战;第六部分将对全文
的内容进行总结。
1 知识图谱的定义与架构
1.1 知识图谱的定义
在维基百科的官方词条中:知识图谱是Google
用于增强其搜索引擎功能的知识库
[8]
。本质上,知
识图谱是一种揭示实体之间关系的语义网络,可以
对现实世界的事物及其相互关系进行形式化地描
述。现在的知识图谱已被用来泛指各种大规模的知
识库。
三元组是知识图谱的一种通用表示方式,即
(,,)GERS ,其中
12 |E|
{, , , }
E
ee e
是知识库中的
实体集合,共包含||E 种不同实体;
12 |E|
{, , , }Rrr r
是知识库中的关系集合,共包含||R 种不同关系;
SERE代表知识库中的三元组集合。三元组
的基本形式主要包括实体1、关系、实体2和概念、
属性、属性值等,实体是知识图谱中的最基本元素,
不同的实体间存在不同的关系。概念主要指集合、
类别、对象类型、事物的种类,例如人物、地理等;
属性主要指对象可能具有的属性、特征、特性、特
点以及参数,例如国籍、生日等;属性值主要指对
象指定属性的值,例如中国、1988-09-08等。每个实
体(概念的外延)可用一个全局唯一确定的ID来标
识,每个属性-属性值对(attribute-value pair,AVP )
可用来刻画实体的内在特性,而关系可用来连接两
个实体,刻画它们之间的关联。
就覆盖范围而言,知识图谱也可分为通用知识
图谱和行业知识图谱。通用知识图谱注重广度,强
调融合更多的实体,较行业知识图谱而言,其准确
度不够高,并且受概念范围的影响,很难借助本体
库对公理、规则以及约束条件的支持能力规范其实
体、属性、实体间的关系等。通用知识图谱主要应
用于智能搜索等领域。行业知识图谱通常需要依靠
特定行业的数据来构建,具有特定的行业意义。行
业知识图谱中,实体的属性与数据模式往往比较丰
富,需要考虑到不同的业务场景与使用人员。
1.2 知识图谱的架构
知识图谱的架构主要包括自身的逻辑结构以及
体系架构,分别说明如下。
1) 知识图谱的逻辑结构
知识图谱在逻辑上可分为模式层与数据层两个
层次,数据层主要是由一系列的事实组成,而知识
将以事实为单位进行存储。如果用(实体1,关系,
实体2)、(实体、属性,属性值)这样的三元组来表达
事实,可选择图数据库作为存储介质,例如开源的
Neo4j
[9]
、Twitter的FlockDB
[10]
、sones的GraphDB
[11]
等。模式层构建在数据层之上,主要是通过本体库
来规范数据层的一系列事实表达。本体是结构化知
识库的概念模板,通过本体库而形成的知识库不仅
层次结构较强,并且冗余程度较小。
2) 知识图谱的体系架构
知识图谱的体系架构是其指构建模式结构,如
图1所示。其中虚线框内的部分为知识图谱的构建过
程,该过程需要随人的认知能力不断更新迭代。
知识图谱主要有自顶向下(top-down)与自底向
上(bottom-up)两种构建方式。自顶向下指的是先为
知识图谱定义好本体与数据模式,再将实体加入到
知识库。该构建方式需要利用一些现有的结构化知
识库作为其基础知识库,例如Freebase项目就是采用
这种方式,它的绝大部分数据是从维基百科中得到
的。自底向上指的是从一些开放链接数据中提取出
实体,选择其中置信度较高的加入到知识库,再构
建顶层的本体模式
[12]
。目前,大多数知识图谱都采
用自底向上的方式进行构建,其中最典型就是
Google的Knowledge Vault
[13]
。
第4期 徐增林,等: 知识图谱技术综述
591
结构化的数据
半结构化的数据
非结构化的数据
实体抽取
关系抽取
属性抽取
数据整合
实体对齐
知识推理
第三方数据库
本体构建 质量评估
知识图谱
知识更新 知识检索
知识抽取
知识融合
图1 知识图谱的体系架构
2 大规模知识库
随着语义Web资源数量激增、大量的RDF数据
被发布和共享、LOD(linked open data)等项目的全面
展开
[14]
,学术界与工业界的研究人员花费了大量的
精力构建各种结构化的知识库。下面将以开放链接
知识库、行业知识库这两类主要的知识库类型为代
表,详细说明其中的几个知名度较高的大规模知
识库。
2.1 开放链接知识库
在LOD项目的云图中,Freebase、Wikidata、
DBpedia、YAGO这4个大规模知识库处于绝对核心
的地位,它们中不仅包含大量的半结构化、非结构
化数据,是知识图谱数据的重要来源。而且具有较
高的领域覆盖面,与领域知识库存在大量的链接关
系。
1) Freebase
Freebase知识库
[15]
早期由Metaweb公司创建,后
来被Google收购,成为Google知识图谱的重要组成
部分。Freebase中的数据主要是由人工构建,另外一
部分数据则主要来源于维基百科、IMDB、Flickr等
网站或语料库。截止到2014年年底,Freebase已经包
含了6 800万个实体,10亿条关系信息,超过24亿条
事实三元组信息,在2015年6月,Freebase整体移入
至WikiData。
2) Wikidata
Wikidata
[16]
是维基媒体基金会主持的一个自由
的协作式多语言辅助知识库,旨在为维基百科、维
基共享资源以及其他的维基媒体项目提供支持。它
是Wikipedia、Wikivoyage、Wikisource中结构化数据
的中央存储器,并支持免费使用
[17]
。Wikidata中的
数据主要以文档的形式进行存储,目前已包含了超
过1 700万个文档。其中的每个文档都有一个主题或
一个管理页面,且被唯一的数字标识。
3) DBpedia
DBpedia
[18]
是由德国莱比锡大学和曼海姆大学
的科研人员创建的多语言综合型知识库,在LOD项
目中处于最核心的地位。DBpedia是从多种语言的维
基百科中抽取结构化信息,并且将其以关联数据的
形式发布到互联网上,提供给在线网络应用、社交
网站以及其他在线知识库。由于DBpedia的直接数据
来源覆盖范围广阔,所以它包含了众多领域的实体
信息。截止至2014年年底,DBpedia中的事实三元组
数量已经超过了30亿条。除上述优点外,DBpedia
还能够自动与维基百科保持同步,覆盖多种语言。
4) YAGO
YAGO
[19]
是由德国马普所(max planck institute,
MPI)的科研人员构建的综合型知识库。YAGO整合
了维基百科、WordNet
[20]
以及GeoNames等数据源,
特别是将维基百科中的分类体系与WordNet的分类
体系进行了融合,构建了一个复杂的类别层次结构
体系。第一个版本包含了超过100万的实体以及超过
500万的事实。2012年,发布了它的第二个版本,在
YAGO的基础上进行了大规模的扩展,引入了一个
新的数据源GeoNames
[21]
,被称为YAG02s。包含了
超过1 000万的实体以及超过1.2亿的事实。
2.2 垂直行业知识库
行业知识库也可称为垂直型知识库,这类知识
库的描述目标是特定的行业领域,通常需要依靠特
定行业的数据才能构建,因此其描述范围极为有限。
剩余17页未读,继续阅读
ai
- 粉丝: 57
- 资源: 315
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Picasso_v3.1 2.ipa
- chromedriver-mac-arm64.zip
- 蓝zapro.apk
- chromedriver-linux64.zip
- UCAS研一深度学习实验-MNIST手写数字识别python源码+详细注释(高分项目)
- 基于Python和PyTorch框架完成的一个手写数字识别实验源码(带MINIST手写数字数据集)+详细注释(高分项目)
- 基于Matlab在MNIST数据集上利用CNN完成手写体数字识别任务,并实现单层CNN反向传播算法+源代码+文档说明(高分项目)
- NVIDIA驱动、CUDA和Pytorch及其依赖
- 基于SVM多特征融合的微表情识别python源码+项目说明+详细注释(高分课程设计)
- html动态爱心代码一(附源码)
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0