没有合适的资源?快使用搜索试试~ 我知道了~
古汉语实体关系联合抽取的标注方法.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 10 浏览量
2022-06-26
14:57:05
上传
评论 1
收藏 188KB DOCX 举报
温馨提示
试读
18页
古汉语实体关系联合抽取的标注方法.docx
资源推荐
资源详情
资源评论
1 引言
随着深度学习的兴起通过文本标注的方式构建数据集并依此进行命名实体
识 别 ( ) 以 及 关 系 抽 取 (
)的人工智能模型训练成为自然语言处理领域的核心研究方法以
及知识图谱构建的重要前期工作。
由于各研究领域所面向的文本数据具有不同的特点 在构建专业领域知识库
的过程中需要提出与数据特点相适应的文本标注方法。与金融、农业、医学等
学科利用自然语言处理技术进行研究并不断取得突破相对 历史学等文献研究领
域的重要阵地仍相当程度地踯躅于传统的研究方法。
2 研究现状
针对古汉语的自然语言处理研究起步相对较早文献
分别基于机
器学习与深度学习的模型对《左传》《国语》等古汉语文献进行分词与词性标
注研究提出了分词和词性标注的规范并发布了相关的权威数据集。文献
进
一步对古汉语命名实体识别进行了深入研究。然而面向古汉语的关系抽取任务
却迟迟未能得到研究者的重视相关研究局限于分词、词性标注、命名实体识别
等自然语言处理工作的基础领域。受此影响学界利用自然语言处理技术对古汉
语文本进行自动解构的研究实质上仍处于起步阶段与关系抽取相关的文本数据
标注方法和模型研究都存在大量的研究空白。
经典的实体关系抽取采用流水线()的方法
!
即将命名实体识别
与关系抽取划分为两个彼此独立的子任务。这种方法虽然易于建模 但彼此独立
的模型框架忽略了命名实体识别与关系抽取之间的任务相关性 容易导致错误传
递、关系丢失等问题。因此通过联合学习模型完成实体关系抽取任务逐渐成为
学界研究的主流。! 年"# 等
将实体关系联合抽取转化为序列标注。在
此基础上曹明宇等
、" 等
进一步发展了序列标注的方法与思路。随着
$% ( $ && ' %&'& )
和
()$%(()$%)
等基于大批量数据进行建模的预训练模型推出序列
标注的实体关系联合抽取方法得到进一步的拓展与应用 在不同的专业领域取得
了优异的效果
。然而这种基于 $% 预训练模型的研究方法需要海量的文
本数据集进行预训练对于历史学等面向古汉语的学术领域目前所拥有的权威文
本数据量使其并不具备实际可行性。
针对面向古汉语的实体关系抽取技术方面所存在的空白 本文尝试构建适用
于小样本学习(*+,-#))且面向古汉语文献的 $./ 文本数据序列标
注规范进而构建了端对端()的 01,$23,4* 实
体关系联合抽取模型对提出的文本标注方法进行验证。
3 文本标注思想
由于学界对古汉语实体关系抽取的研究处于空白 并且没有可供参考的权威
成果与标准数据集因此本文参考了逻辑语义学()-&也称为形
式语义学)
!
以及汉语配价理论
的相关研究成果在对古汉语的文本内容
以及语法进行分析的基础上提出针对古汉语的 $./ 标注模式。
5关系配价标注
以《史记6五帝本纪》
中的相关记载为例如例 所示。
例 1
S1:黄帝者,少典之子 -7黄帝者少典之子
R1:<黄帝,子,少典>⇒黄帝是少典的儿子 78黄帝子少典9⇒黄帝是少典的
儿子
S2:嫘祖为黄帝正妃。-7嫘祖为黄帝正妃。
R2:<嫘祖,正妃,黄帝>⇒嫘祖是黄帝的正妃 78嫘祖正妃黄帝9⇒嫘祖是黄
帝的正妃
在 理 想 状 态 下 实 体 关 系 抽 取 的 文 本 中 应 当 有 联 系 实 体 的 关 系 触 发 词
(%0)存在
如例 中语句+S1-、+S2- 的“子”“正妃”。
经 由触发词 实 体 之间可以被直接抽 取 出 符 合 自 然 语言规则的实 体 关 系 即 +
R1、+R2 等以类 :* 三元组格式8-;1</1<9 表示的实体
关系。
例 2
S3:诸侯相侵伐,暴虐百姓,而神农氏弗能征。-7诸侯相侵伐暴虐百姓而神农氏
弗能征。
R3−1:<诸侯,侵伐,诸侯>,78诸侯侵伐诸侯9
R3−2:<诸侯,暴虐,百姓>,78诸侯暴虐百姓9
R3−3:<神农氏,弗能征,诸侯>,78神农氏弗能征诸侯9
然而历史文献中实体关系通常以类似于例 语句+S3- 的事件形式存在。
考虑到语法和语句的省略成分语句+S3- 中的三个实体“诸侯”“百姓”和“神农氏”
分别通过“侵伐”“暴虐”和“弗能争”形成了 +R3−1,、+R3−2,、+R3−3,
三个由谓词短语(=1#&&=)连接而成的三元组。事实上上述基于事
件描述类文本生成的三元组+R3−1,、+R3−2,、+R3−3, 中的任何一个
都不符合自然语言规则所认可的实体关系。但是这类借由谓词所连接起来的三
元组无论其所能涵盖的文本还是实体层面和关系层面的多样性与复杂度都远超
基于关系描述类文本抽取的人物关系的范畴。对于语义内容更加复杂的情况如
例 所示。
例 3
S4:轩辕之时,神农氏世衰。-7轩辕之时神农氏世衰。
R4:<神农氏世,衰,Null>78神农氏世衰;9
由于例 语句+S4- 中仅有一个实体因此其内部并不存在可以通过三元组
表示的实体关系。即使为其构建出类似 +R4−1, 的三元组实体关系>轩辕之
时”这一作为事件属性的时间状语也会被隐去。显然 从关系抽取任务的角度仅
以名词性的关系触发词连接而成的传统三元组关系格式在文本类别、实体数量、
关系类型等方面存在种种限制。
如例 所示通常情况下历史记载中使实体之间直接形成关系的是语句中的
谓词短语即事件中的行为。周国光
认为汉语中不仅谓词短语可以作为句子的
支 配 者 形 容 词 短 语 ( (<? #&&( ) 、 名 词 短 语 ( ;
#&&)都可以作为语句的核心以支配者的方式关联语句中的其他成分。
值得关注的是在汉语语义学研究过程中周国光扩大了这一现象的外延提出了
“汉语配价理论”。汉语配价理论事实上对传统意义上实体关系的类型进行了扩大
在此基础上例 中的语句+S1-、+S2- 可以被改写为以下逻辑表达式。
S1:黄帝者,少典之子 -7黄帝者少典之子
S
':∃xy@x∈黄帝+ABy∈少典ANP
子
B
CxyDE
S2:嫘祖为黄帝正妃。-7嫘祖为黄帝正妃。
S
':∃xy@x∈嫘祖+ABy∈黄帝ANP
正妃
B
CxyDE
通过函子 NP
子
和 NP
正妃
转写后的逻辑表达式+S1'-F、+S2'-F以表述语句逻
辑语义的形式将被赋值后的实体变元+x 与+y 间的实体关系表示出来传统意义
上的关系触发词升格为语句核心实体关系则升格为语句核心构成的函子。在这
种模式下古汉语文献记载中大量存在的事件可以作为类似实体关系的形式应用
于实体关系抽取任务中。同时在描述复杂逻辑语义的过程中经由函子与说明成
分组成的扩展函子逻辑表达式可以将时间、地点等描述实体关系的属性完整地
保留。以例 语句+S4- 为例改写后的逻辑表达式如下。
S4:轩辕之时,神农氏世衰。-7轩辕之时神农氏世衰。
S
':∃xy@x∈神农氏+ABy∈世+A(轩辕之时)↑ABAP
衰
B
CxGyDE
S
″:∃xy@x∈神农氏+ABy∈世+A(轩辕之时)↑ABVP
衰
B
CxGyDE
例 、例 以三元组所表示的实体关系和逻辑表达式在基本完整地保存了
语句语义的同时扩大了实体以及实体关系的类型拥有数学的统一性与简洁性并
剩余17页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3474
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 359B-VB一款N-Channel沟道SOT23的MOSFET晶体管参数介绍与应用说明
- 三菱PLC例程源码定長度裁端子机程序
- 355A-VB一款N-Channel沟道SOT23的MOSFET晶体管参数介绍与应用说明
- 三菱PLC例程源码电子元件玻璃烘烤机PLC程序
- C#,图论与图算法,有向图(Directed Graph)的环(Cycle)的普通判断算法与源代码
- 351A-VB一款N-Channel沟道SOT23的MOSFET晶体管参数介绍与应用说明
- 三菱PLC例程源码电子元件玻璃烘烤机
- C#,精巧实用的代码,图片像素(Bitmap Pixel)的读取与绘制的快速方法与源程序
- 351AN-VB一款N-Channel沟道SOT23的MOSFET晶体管参数介绍与应用说明
- C#,图论与图算法,图最短路径的迪杰斯特拉(Dijkstra)算法与源代码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功