没有合适的资源?快使用搜索试试~ 我知道了~
远程监督的自适应实体抽取.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 108 浏览量
2023-02-23
16:56:09
上传
评论
收藏 1.08MB DOCX 举报
温馨提示
试读
11页
远程监督的自适应实体抽取.docx
资源推荐
资源详情
资源评论
知识图谱是一种用图模型来描述知识和建模世界万物之间关联的技术方法
[1]
,可以高效描
述海量实体、实体属性及实体间的关系,将非结构化的知识组织起来
[2]
。数据整合成知识图谱
并使用图数据库存储能大幅提高数据查询速度
[3]
。知识图谱在语义检索
[4-5]
、智能问答
[6-7]
、自然
语言理解
[8-9]
、辅助大数据分析
[10-11]
等方面表现出很高的应用价值,还可以实现知识的图形化展
示。知识图谱最早的概念来自 Berners
[12]
提出语义网,已经出现了许多知识图谱项目,知识图
谱项目可分为通用知识图谱和垂直领域知识图谱 2 种,通用知识图谱有 Google 的 FreeBase、
德国马普研究所研制的 Yago、FreeBase、Carnegie Mellum 大学开发的 NELL 系统,微软的
ConceptGraph 等。FreeBase
[13]
做为开放的大规模链接数据库,基于 RDF 三元组模型,采用
社区成员协作方式构建。Yago
[14]
是一个集成了维基百科、WordNet、GeoNames3 种数据库的
链接数据库。NELL
[15]
通过自学习地互联网挖掘自动从 Web 中抽取三元组知识。微软的
ConceptGraph 是以概念层次体系为中心的知识图谱,主要储存概念定义和概念之间的 IsA 关
系。相对于通用知识图谱而言,垂直领域的知识图谱只收集特定领域的知识,比如医疗、金融
和电商领域。垂直领域的知识结构可能更加复杂,比如医疗知识图谱 GeneOnto
[16]
包含了复杂
的类层次结构。同时,垂直领域知识图谱的专业性强,而且语料难以获得,给垂直领域知识图
谱构建带来了挑战。通常需要通过专业人士构建出专业领域的本体库,然后利用本体来抽取实
体构建知识图谱。这种方法需要的标注工作量较大,消耗时间长。降低领域知识图谱所需的人
工标注数据量,以此减少图谱构建时间,降低图谱构建的难度。
本文提出了一种基于远程监督和深度学习的自适应实体抽取方法,设计领域相关知识的本
体,并以粮油保管领域为例,将《粮油储藏学》
[17]
、《粮油保管员教材》
[18]
等文献作为语料,
使用双向长短期记忆网络(BiLSTM)和全连接神经网络方法进行了实体抽取,形成 RDF 三元
组,并进行了对比实验,最后构建了粮油保管领域的知识图谱。
1. 知识图谱构建方法和过程
知识图谱构建流程如图 1 所示。通过和相关领域专家沟通,利用领域知识构建领域本体
库,作为知识图谱构建的依据,再使用远程监督实体抽取算法抽取实体。
图 1 知识图谱构建流程
Fig. 1 Flowchart of knowledge graph build
下载: 全尺寸图片
实体抽取首先需进行文本预处理。将领域相关知识的教材、文件去除图片等非文本信息,
进行分词、去除停用词,然后通过查阅相关资料构建初始实体词典,使用贪心算法对语料进行
标注,得到数据集,最后使用基于远程监督和深度神经网络抽取实体
[19-20]
。
实体抽取算法在 PU 学习(positive unlabeled learning,PU)框架下,使用基于 BiLSTM 和
全连接网络的方法进实体的判定和分类,利用 AdaSampling
[21]
机制对实体词典进行更新。抽取
到实体后,按照本体库中定义的关系,使用 Neo4j
[22]
图数据库构建知识图谱。
本体是对领域知识进行建模的规范,是描述现实世界的抽象模型,通过树状结构组织,以
形式化方式对领域的概念及他们之间的关系给出明确定义, 相邻层次的概念之间具有严格的
“IsA”关系。在知识图谱中,本体属于模式层,用于描述概念层次体系,是知识库中知识的概念
模板
[23-24]
。本文根据专家知识,利用人工编辑的方式手动构建了粮油存储领域本体。图 2 展示
部分本体,本体以粮油存储为根节点,包括粮油作物种类、储粮环境、有害生物和防治措施 4
类概念,每一类概念下细分成若干子类,比如在有害生物类别下,按照生物学分类将害虫分为
了不同的类别。
图 2 本体设计图
Fig. 2 Ontology design
下载: 全尺寸图片
2. 实体抽取算法
PU 学习在只有正类数据和无标记数据的情况下训练分类,目标是使风险函数 RℓRℓ 最小
[25]
。
令 X∈ XX 和 y∈ yy 是输入和输出的变量,其中 XX⊂ R
d
,yy={0, 1}。分类器 f: → R。分
类器的损失函数:l: R × yy→ R
+
。给定分类器 f 和损失函数 l,l 的风险函数 RℓRℓ 为:
Rℓ=EX,Yℓ(f(x),yx)Rℓ=EX,Yℓ(f(x),yx)
(1)
其中,在实体抽取任务中,RℓRℓ 为:
Rℓ=πnEX∣Y=0ℓ(f(x),0)+πpEX∣Y=1ℓ(f(x),1)Rℓ=πnEX∣Y=0ℓ(f(x),0)+πpEX∣Y=1ℓ(f(x),1)
(2)
其中,π
p
=P(Y=1),π
n
=P(Y=0)。
本文假设语料中包含足够多的正例,正例的损失 E
X|Y=1
ℓℓ(f(x), 1)能被有效估计。因此,PU
学习的主要问题是在没有负例标注数据的情况下如何估计 E
X|Y=0
ℓℓ(f(x), 0)。由
P(Y=0)P(X∣Y=0)=P(X)−P(Y=1)P(X∣Y=1)P(Y=0)P(X∣Y=0)=P(X)−P(Y=1)P(X∣Y=1)
(3)
可知:
EX∣Y=0ℓ(f(x),0)=EXl(f(x),0)−πpEX∣Y=1l(f(x),0)EX∣Y=0ℓ(f(x),0)=EXl(f(x),0)−πpEX∣Y=1l(f(x),0)
(4)
为此,进一步规定:
Rℓ=EXℓ(f(x),0)+πpEX∣Y=1(ℓ(f(x),1)−ℓ(f(x),0))Rℓ=EXℓ(f(x),0)+πpEX∣Y=1(ℓ(f(x),1)−ℓ(f(x),0))
(5)
剩余10页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3962
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功