远程监督的自适应实体抽取.docx_远程监督资源-CSDN文库

版权申诉

108 浏览量 2023-02-23 16:56:09 上传评论收藏 1.08MB DOCX 举报

资源推荐

资源详情

资源评论

知识图谱是一种用图模型来描述知识和建模世界万物之间关联的技术方法

[1]

，可以高效描

述海量实体、实体属性及实体间的关系，将非结构化的知识组织起来

[2]

。数据整合成知识图谱

并使用图数据库存储能大幅提高数据查询速度

[3]

。知识图谱在语义检索

[4-5]

、智能问答

[6-7]

、自然

语言理解

[8-9]

、辅助大数据分析

[10-11]

等方面表现出很高的应用价值，还可以实现知识的图形化展

示。知识图谱最早的概念来自 Berners

[12]

提出语义网，已经出现了许多知识图谱项目，知识图

谱项目可分为通用知识图谱和垂直领域知识图谱 2 种，通用知识图谱有 Google 的 FreeBase、

德国马普研究所研制的 Yago、FreeBase、Carnegie Mellum 大学开发的 NELL 系统，微软的

ConceptGraph 等。FreeBase

[13]

做为开放的大规模链接数据库，基于 RDF 三元组模型，采用

社区成员协作方式构建。Yago

[14]

是一个集成了维基百科、WordNet、GeoNames3 种数据库的

链接数据库。NELL

[15]

通过自学习地互联网挖掘自动从 Web 中抽取三元组知识。微软的

ConceptGraph 是以概念层次体系为中心的知识图谱，主要储存概念定义和概念之间的 IsA 关

系。相对于通用知识图谱而言，垂直领域的知识图谱只收集特定领域的知识，比如医疗、金融

和电商领域。垂直领域的知识结构可能更加复杂，比如医疗知识图谱 GeneOnto

[16]

包含了复杂

的类层次结构。同时，垂直领域知识图谱的专业性强，而且语料难以获得，给垂直领域知识图

谱构建带来了挑战。通常需要通过专业人士构建出专业领域的本体库，然后利用本体来抽取实

体构建知识图谱。这种方法需要的标注工作量较大，消耗时间长。降低领域知识图谱所需的人

工标注数据量，以此减少图谱构建时间，降低图谱构建的难度。

本文提出了一种基于远程监督和深度学习的自适应实体抽取方法，设计领域相关知识的本

体，并以粮油保管领域为例，将《粮油储藏学》

[17]

、《粮油保管员教材》

[18]

等文献作为语料，

使用双向长短期记忆网络(BiLSTM)和全连接神经网络方法进行了实体抽取，形成 RDF 三元

组，并进行了对比实验，最后构建了粮油保管领域的知识图谱。

1. 知识图谱构建方法和过程

知识图谱构建流程如图 1 所示。通过和相关领域专家沟通，利用领域知识构建领域本体

库，作为知识图谱构建的依据，再使用远程监督实体抽取算法抽取实体。

剩余10页未读，继续阅读

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3962
资源: 1万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip