知识图谱已成AI下一风口，但你知道它进展到哪了吗？资源-CSDN文库

27 浏览量 2021-01-27 13:06:53 上传评论收藏 359KB PDF 举报

资源详情

资源评论

资源推荐

知识图谱已成知识图谱已成AI下一风口，但你知道它进展到哪了吗？下一风口，但你知道它进展到哪了吗？

知识图谱最初是由谷歌提出用来优化搜索引擎的技术，在不断发展中外延也一度扩大。盘点目前知识图谱的发展，其已经助力

了很多热门的人工智能场景的应用，例如语音助手、聊天机器人、智能问答等。当前的人工智能其实可以简单划分为感知智能

（主要集中在对于图片、视频以及语音的能力的探究）和认知智能（涉及知识推理、因果分析等），知识图谱就是认知智能领

域中主要的技术之一。

从使用的范围来讲，知识图谱分为通用知识图谱和领域知识图谱。通用知识图谱主要应用于面向互联网的搜索、推荐、问答等

业务场景。通用知识图谱强调的是广度，数据也多来自于互联网，很难形成完整的全局性的针对本体层的统一管理。而在越来

越多的垂直领域中，知识图谱也被广泛应用，已经成为了基础数据服务，为上层智能应用提供基础设施支撑。本文将重点探讨

领域知识图谱的发展与挑战。

1. 构建领域大脑

知识图谱的构建是整个应用链条的第一步，也是至关重要的一步，图谱构建的质量直接决定了上层应用的效果。知识图谱可以

将多源异构的数据汇聚到一起。

在一些行业中，领域知识图谱的构建比起通用知识图谱，会更加依赖于结构化数据去迅速构建出行业的显性网络。而在另外一

些行业中，需要处理的数据几乎都是非结构化数据，构建高质量的知识图谱就面临着更大的技术挑战。

在知识图谱构建技术挑战中，领域内知识表示建模、实体识别与实体链接、关系事件抽取、隐性关系发现等技术都当前研究的

热点。

针对领域特点增强知识表示能力

领域知识图谱往往汇聚多种领域内特有的数据，通用知识表示在特定的领域存在限制和不足。

举个例子，在很多领域时间和空间都是重要的计算维度，对实体时序和空间属性的建模缺失会限制上层应用的发挥。比如在安

防领域，除了实体和关系两种对象的数据外，还有一大类轨迹数据，具有更强的时空特征和时效性，数据总量也更大。这类数

据，虽然对实体的构建和关系构建都提供了信息，但其本身强时空特征，无法直接体现在实体 - 关系的拓扑结构或属性中。

另外，时间和空间作为最重要的维度，往往涉及大量的区间计算与聚合操作。因此，在安防知识图谱中，会设计第三类对象：

事件（event），将实体对象的行为数据，即：具备“主体”-“客体”-“时间”-“地点”-“时间段”-“事件内容”等多方面信息的数据，构

造成为事件对象。事件对象往往描述了一个现实世界中一个实体在一个时间点（段）或空间点（范围）发生的一个行为，其一

个重要的特点就是数据的属性值不会发生改变，这个特点可以使得系统在针对事件数据的存储和计算都可以进行优化。

批量结构化数据处理

行业知识图谱的核心实体、属性、关系和事件多来源于行业的内部的结构化数据。由于各种历史原因，这些系统中的数据通常

存在数据质量差、数据标准不统一、元数据描述缺乏、数据字典不全、数据一致性不完备等问题。批量结构化数据知识图谱构

建的挑战主要来自于如何做到工程化。越来越多的系统需要一整套完整的工程化的方案解决批式和流式的知识构建过程，通过

数据探查、数据理解、数据清洗、数据标准化、数据映射、数据关联、数据融合等几个阶段的工作，完成从质量不一的原始结

构化数据到最终知识图谱的过程。

实体识别与关系抽取

实体识别是利用非结构化数据构建知识图谱的关键步骤。实体识别后需要进行实体链接。实体链接是识别出实体与已有知识库

中对应实体进行链接，以补充知识图谱的内容。

传统的基于规则统计和成熟算法的手段已经可以很好的处理部分实体的抽取问题，很多领域实体识别都采用多种方法混合的实

体识别流水线。例如，在某个领域使用 CWS 负责识别人名、地名、组织机构名；用基于规则的开源组件负责对时间、温度、

频次等通用实体，以及难度较大的领域实体进行识别以及标准化；使用 biLSTM/CRF 负责酒店、网吧等机构名进行语料学习

训练，提升识别精度等。

除了传统的实体识别方法，目前也有越来越多的深度学习算法被用于解决实体识别问题。例如利用 CNN/LSTM 来学习词位置

处的向量表示，用滑动窗口分类的思想，使用神经网络学习句子中的每个 ngram 的表示，预测目标实体。深度学习方法训练

是一个端到端的过程，无需人工定义相关的特征。如何先验知识融入深度学习方法提高识别准确率是当前的研究的热点之一。

在目前阶段使用深度学习出比较好的效果需要相对大量的训练数据，所以在处理实际问题的时候要根据实际数据情况进行判

断。

实体识别与链接是知识图谱构建与知识应用的核心技术。在抽取实体的同时，我们往往也会在非结构化数据中抽取关系。关系

抽取是一项更有挑战的任务。领域知识图谱往往会先解决预定义关系抽取，因为在不同的领域中会存在领域特有的关系，而预

定义关系抽取的技术难度也会低于开放式关系抽取。

在实际工作中，我们往往针对不同类型的关系采用不同的方法进行抽取。比较常用的手段包括基于模式和专家规则方法、半监

督和有监督的机器学习方法。

基于规则的方法召回率低，实施成本高。基于机器学习的关系抽取方法占据了主导地位。但半监督的关系抽取得到的知识缺

乏语义信息，而有监督关系抽取中需要大量人工标注的高质量数据作为训练数据，人工成不很高当前前，绝大部分的关系抽取

研究还集中在预定义的关系抽取上。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余3页未读，立即下载

评论0

内容反馈

weixin_38714653

粉丝: 3
资源: 931

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip