清华AMiner-2019年第二期《人工智能之知识图谱》.pdf

所需积分/C币:50 2019-06-19 09:11:45 7.67MB PDF

清华AMiner-2019年第二期《人工智能之知识图谱》,知识图谱报告
图表目录 图1知识工程发展历程 图2 Knowledge Graph知识图谱 图3知识图谱细分领域学者选取流程图 10 图4堪于离散符号的知识表示与基于连续向量的知识表示 图5知识表示与建模领域全球知名学者分布图 图6知识表示与建模领域全球知名学者国家分布统计 13 图7知识表小与建模领域中国知名学者分布图 14 图8知识表示与建模领域各国知名学者迁徙图 图9知识表示与建模领域全球知名学者h- index分布图 15 图10知识获取领域全球知名学者分布图 图11知识获取领域全球知名学者分布统计 图12知识获取领域中国知名学者分布图 图13知识获取领域各国知名学者迁徙图 图14知识获取领域全球知名学者h- index分布图 图15语义集成的常见流程 nel 24 24 图16知识融合领域全球知名学者分布图 图17知识融合领域全球知名学者分布统计 图18知识融合领域中国知名学者分布图 图19知识融合领域各国知名学者迁徙图 32 图20知识融合领域全球知名学者 h-index分布图 2 图21知识查询与推理领域全球知名学者分布图 39 图22知识查询与推理领域全球知名学者分布统计 39 图23知识查询与推理领域中国知名学者分布图 39 图24知识表示与推理领域各国知名学者迁徙图 40 图25知识査询与推理领域全球知名学者h- index分布图 40 图26知识应用领域全球知名学者分布图 46 图27知识应用领域全球知名学者分布统计 46 图28知识应用领域中国知名学者分布图 图29知识应用领域各国知名学者迁徙图 47 图30知识应用领域全球知名学者h- -index分布图 图31行业知识图谱应用 68 图32电商图谱 Schema 图33大英博物院语义搜索 图34异常关联挖掘 0 图35最终控制人分析 图36企业社交图谱 图37智能问答 图38生物医疗 图39知识图谱领域近期热度 75 图40知识图谱领域全局热度 75 表1知识图谱领域顶级学术会议列表 衣2知识图谱引用量前十论文 表3常识知识库型指示图 ne 56 67 摘要 知识图谱( Knowledge Graph)是人工智能重要分支知识工程在大数据环境中的成功应 用,知识图谱与大数据和深度学习·起,成为推动互联网和人⊥智能发展的核心驱动力之·。 基于此背景,本研究报告对知识图谱这一课题进行了简单梳理,包括以下内容 知识图谱的概念与研究概况。对知识图谱的概念、分类进行阐述,并分四个阶段对知识 工程的发展历程进行介绍 知识图谱技术。从知识表小与建模、知识获取、知识融合、知识图谱查询推理及知识图 谱应用五个子领域来划分,并分别介绍每个领域所应用到的技术。 知识图谱领域专家介绍。依据 AMiner数据平台信息,对知识图谱领域的5个细分领域 进行梳理,重点介绍每一细分领域研究学者的研究方向与代表性文章,旨在为学术界、产业 界提供知识图谱技术及学者的分析依据,同吋面向政府机关、高校、企业等对知识图谱技术 感兴趣的机构介绍该领域基本概念、研宄与应用方向。包括顶尖学者的全球分布、迁徙概况、 学者机构分布、 h-index分析,并依据 AMiner评价体系,在知识图谱发展过程中近十年的高 引学者进行详细介绍。 知识图谱应用。从通用知识图谱应用和领域知识图谱应用两个方面来介绍。以电子商务、 图书情报、企业商业、船业投资、生物医疗五个领域,从图谱构建与知识应用两个方面介绍 领域知识图谱的技术构建应用与研究现状。 知识图谱趋势研究。对知识图谱的发展趋势特点进行分析。并基于 AMiner数据平台 对近期知识图谱领域研究热点进行可视化分析,对未来知识图谱研究方向进行预测。 报告(电子版)实时更新,获取请前往 https://www.aminer.cn/researchreport/5c3d5a8709e961951592a49d?download=true&pathname= knowledgraphpdfo 概念篇 知识图谱概念和分类 知识图谱( Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其之间的 关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和 理解互联网海量信息的能丿。知识图谱给互联网语乂搜索带来了活丿,同时也在智能问答中 显小出强大威力,已经成为互联网知识驱动的智能应用的基础改施。 知识图谱技术是指知识图谱建立和应用的技术,是融合认知计算、知识表示与推理、信 息检索与抽取、自然语言处理与语乂web、数据挖掘与杋器学习等交叉硏究,属人工智能重 要研究领域知识工程的研究范畴。知识图谱于2012年由谷歌提出并成功应用于搜素引擎, 是建立大规模知识的个杀手锏应用 知识图谱的概念 1994年图灵奖获得者、知识工程的建立者费根鲍姆给出知识工程定义—将知识集成 计算机系统从而完成只有特定领域专家才能完成的复杂仟务。在人数据时代,知识工程是 从大数据中自动或半自动获取知识,建立基于知识的系统,以提供互联网智能知识服务。大 数据对智能服务的需求,已经从单纯的搜集获取信息,转变为自动化的知识服务。我们需要 利用知识工程为大数据添加语义/知识,使数据产生智慧( Smart data),完成从数据到信息 到知识,最终到智能应用的转变过稈,从而实现对人数据的洞察、提供用户关心问题的答案、 为决策提供支持、改进用户体验等目标。知识图谱在以下应用中已经凸显出越来越重要的应 用价值: 知识融合:当前互联网人数据具有分布异构的特点,通过知识图谱可以对这些数据 资源进行语义标注和链接,建立以知识为中心的资源语义集成服务; ·语义搜索和推荐:知识图谱可以将用户搜索输入的关键词,映射为知识图谱中客观 世界的概念和实体,搜索结果直接显示出满足用户需求的结构化信息内容,而不是 互联网网页; 问答和对话系统:基于知识的问答系统将知识图谱看成一个人规模知识库,通过理 解将用户的问题转化为对知识图谱的查询,直接待到用户关心问题的答案 大数据分析与决策:知识图谱通过语义链接可以帮助理解大数据,获得对大数据的 洞察,提供决策支持 当前知识图谱中包含的主要几种节点有: ·实体:指的是具有可区别性且独立存在的某种事物。如某个人、某一座城市、某 种植物、某一件商品等等。世界万物由具体事物组成,此指实体。实体是知识图 谱中的最基本元素,不同的实体间存在不同的关系 概念:具有同种特性的实体构成的集合,如国家、民族、书籍、电脑等。 属性:用于区分概念的特征,不同概念具有不同的属性。不同的属性值类型对应于 不同类型属性的边。如果属性值对应的是概念或实体,则属性描述两个实体之闩的 关系,称为对象属性;如果属性值是具体的数值,则称为数据属性 知识图谱的分类 知识图谱的分类方式很多,例如可以通过知识种类、构建方法等划分。从领域上米说, 知识图谱通常分为通用(领域无关)知识图湝和特定领域知识图谱: 通用知识图谱:通用知识图谱可以形象地看成个面向通用领域的“结构化的百科 知识库”,其中包含了大量的现实世界中的常识性知识,覆盖面极 ·特定领域知识图谱:领域知识图谱又叫行业知识图谱或垂直知识图溍,通常面向某 特定领域,可看成是一个“基于语义技术的行业知识库”。 其他分类方式不再一一赘述。 知识工程发展历程 回顾知识工程四十年多来发展历程,总结知识工程的演进过程和技术进展,可以将知识 工程分成五个标志性的阶段,前知识上程时期、专家系统吋期、万维网1.0时期,群体智能 时期以及知识图谱时期,如图1所示。 1950-1970 1970-1990 1990-2000 2000-2006 2006年至今 符号逻辑 ·专家系统 万维网 互联网发展高峰 维基结构化 神经网络 限定领域 工大规模知识库 语义web 通用领域知识 知识库+推理=智 群体智能!维基 大规模知识获取 产生式规则、语 智能主体、机器人 规模工业应用 图1知识工程发展历程 ●1950-1970时期:图灵测试一知识程诞生前期 人工智能旨在让机器能够像人一样解决复杂问题,图灵测试是评测智能的是手段。这 阶段主要有两个方法:符号主义和连结主义。符号主义认为物理符号系统是智能行为的充要 条件,连结主义则认为大脑(神经元及其连接机制)是一切智能活动的基础。这一阶段具有 代衣性的工作是通用问题求解程序(GPS):将问题进行形式化表达,通过搜索,从问题初 始状态,结合规则或表示得到目标状态。其中最成功应用是博弈论和机器定理证明等。这 时期的知识表示方法上要有逻辑知识表示、产生式规则、语义网终等。这一时代人工智能和 知识工程的先驱 Minsky, Mccarthy和 Newell以 Simon四位学者因为他们在感知机、人工智 能语言和通用问题求解和形式化语言方面的杰出工作分别获得了1969年、1971年、1975年 的图灵奖。 ●1970-1990时期:专家系统一知识工程蓬勃发展期 通用问题求解强调利用人的求解问题的能力建立智能系统,而忽略了知识对智能的支持 使人工智能难以在实际应用中发挥作用。70年开始,人工智能开始转向建立基于知识的系 统,通过“知识库+推理机”实现杪器智能,这一时期涌现出很多成功的限定领域专家系统, 如 MYCIN医疗诊新专家系统、识别分子结构的 DENRAL专家系统以及计算机故障诊断 XCON专家系统等。斯坦福人工智能实验室的奠基人 Feigenbaum教授在1980年的一个项 日报告《 Knowledge Engineering: The applied Side of Artificial Intelligence,》中提出知识工程 的概念,从此确立了知识工程在人工智能中的核心地位。这一时期知识表示方法有新的演进, 包括框架和胭本等。80年代后期出现了很多专家系统的开发平台,可以帮助将专家的领域 知识转变成计算机可以处理的知识。 ●1990-2000时期:万维网 在1990年到2000年,出现了很多人工构建大规模知识库,包括广泛应用的英文 WordNet, 采用一阶谓词逻辑知识表示的Cyc常识知识库,以及中文的 How Net. Web1.0万维网的 生为人们提供了一个开放平台,使用HIML定义文本的内容,通过超链接把文本连接起米, 使得大众可以共享信息。W3C提出的可扩展标记语言XML,实现对互联网文档內容的结构 通过定义标签进行标记,为互联网环境下大规模知识表示和共享奠定了基础。这一时期在知 识表示研究中还提出了木体的知识表示方法 ●2000-2006时期:群体智能 在2001年,万维网发明人、2016年图灵兴获得者 Tim berners-Lee在科学美国人杂志 中发表的论文《 The scmantic web》正式提出语义Wb的概念,旨在对互联网内容进行结构 化语义表示,利用本体措述互联网内容的语义结构,通过对网页进行语义标识得到网页语义 信息,从而获得网贞内容的语义信息,使人和机器能够吏好地协冋工作。W3C进一步提岀 万维网上语义标识语言RDF(资源描述框架)和OWL(万维网本体表述语言)等描述万维 网内容语义的知识描述规范。 万维网的出现使得知识从封闭知识走向开放知识,从集中构建知识成为分布群体智能知 识。原来专家系统是系统内部定义的知识,现在可以实现知识源之间相互链接,可以通过关 联来产生更多的知识而非完全由固定人生产。这个过程中岀现了群体智能,最典型的代表就 是维基百科,实际上是用户去健立知识,体现了互联网大众用户对知识的贡献,成为今天大 规模结构化知识图谱的重要基础。 ●2006年至今:知识图谱一知识工程新发展时期 “知识就是力量”,将万维网内容转化为能够为智能应用提供动力的机器可理解和计算 的知识是这一时期的日标。从2006年开始,大规模维基百科类宫结构知识资源的出现和网 络规模信息提取方法的进步,使得大规模知识获取方法取得了巨大进展。与Cyc、 WordNet 和 HOwNet等手⊥研制的知识库和本体的开创性项目不同,这·时期知识获取是自动化的, 并且在网络规模下运行。当前自动构建的知识库已成为语义搜索、大数据分析、智能推荐和 数据集成的强大资产,在大型行业和领域中正在得到广泛使用。典型的例子是谷歌收购 Freebase后在2012年推出的知识图谱( Knowledge Graph), Facebook的图谱搜索, Microsoft Satori以及商业、金融、生命科学等领域特定的知识库。最具代表性大规模网络知识获取的 工作包括 DBpedia、 Freebase、 Know\ wikitaxonomy和YAGO,以及 Babelnet、 Conceptnet、 DeepDive、NELL、 Probase、 Wikidata、 XLORE、 Zhishi me、 CNDBpedia等。这些知识图谱 遵循RDF数据模型,包含数以千万级或者亿级规模的实体,以及数丨亿或百亿事实(即属 性值和与其他实体的关系),并且这些实体被组织在成千上万的由语义体现的客观世界的概 念结构中。 目前知识图谱的发展和应用状况,除了通用的大规模知识图谱,各行业也在建立行业和 领域的知识图谱,当前知识图谱的应用包括语乂搜索、问答系统与聊天、大数据语义分析以 及智能知识服务等,在智能客服、商业智能等真实场景体现出广泛的应用价值,而更多知识 图谱的创新应用还有待开发。 在我国知识工程领域硏究中,中科院系统所陆汝钤院士、计算所史忠植研究员等老一代 知识工程研究学者为中国的知识工程硏究和人才培养做出了突出贡献,陆汝钤院士因在知识 工程和基」知识的软件工程方面作出的系统和创造性工作,以及在大知识领域的廾创性贡 献,荣获首届“吴文俊人工智能最髙成就奖”。 1.3.知识图谱的知识图谱 我们根据知识工稈生命周期各个阶段的关键技术,利用 AMiner中近年来知识图谱领域 的扃水平学术论文,挖掘出了包括知识衣示( knowledge representation)知识获取( knowledge acquisition)、知识推理( knowledge reasoning)、知识集成( knowledge integration)和知识存 储( knowledge storage)等相关关键词近年凇全球活跃的学术研究。此外,结合知识图谱技 术,本报告将以上研究领域表示为三级图谱结构,具体分析和处理的方法如下: 1.使用自然语言处理技术,提取每篇论文文献的关键词,据此,结合学科领域知识图 谱,将文章分配到相应领域 2.依据学科领域对论文文献进行聚类,并统计论文数量作为领域的研究热度; 3.领域专家按照领域层级对学科领域划分等级,设计了三级图谱结构,最后根据概念 热度定义当前研究热点。 下图是数据挖掘三级知识图谱的可视化表示,详细数据可以参见本报告附录,或到 https://www.aminer.cn/data中直接下载原始数据。鉴于自动分析技术和论文采集的局限性, 图谱还可以进一步完善,欢迎读者批评指正,我们会根据根据读者的反馈定期更新。 注:图中带“<>”的节点表示关系,没有标”<>”的标明的节点关系是上下位关系

...展开详情
img
Jayxp

关注 私信 TA的资源

上传资源赚积分,得勋章
最新资源