没有合适的资源?快使用搜索试试~ 我知道了~
面向中文专利SAO结构抽取的文本特征比较研究_饶齐1
需积分: 0 2 下载量 110 浏览量
2022-08-04
12:40:14
上传
评论
收藏 1.24MB PDF 举报
温馨提示
试读
8页
摘要针对中文专利文本中SAO结构实体关系抽取问题,使用支持向量机的机器学习方法进行关系抽取实验, 分别对基本词法信息、实体间距离信息、最短路径闭包树句法信息以及
资源详情
资源评论
资源推荐
349
国家“十二五”科技支撑计划项目(2012BAH14F00)资助
收稿日期: 20140727; 修回日期: 2014023; 网络出版日期: 201428
北京大学学报(自然科学版) 第 51 卷 第 2 期 2015 年 3 月
Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 51, No. 2 (Mar. 2015)
doi: 10.13209/j.0479-8023.2015.049
面向中文专利 SAO 结构抽取的文本特征比较研究
饶齐 王裴岩 张桂平
†
沈阳航空航天大学知识工程研究中心, 沈阳 110136; † 通信作者, E-mail: zgp@ge-soft.com
摘要 针对中文专利文本中 SAO 结构实体关系抽取问题, 使用支持向量机的机器学习方法进行关系抽取实
验, 分别对基本词法信息、实体间距离信息、最短路径闭包树句法信息以及词向量信息等特征的有效性进行
验证分析。实验结果表明, 基本的词法信息能够明显提高关系抽取性能, 而句法信息没有显著提高关系抽取
效果。此外, 也验证了词向量在 SAO 结构关系抽取中的可行性。
关键词 SAO 结构; 关系抽取; 特征有效性; 词向量
中图分类号 TP391
Text Feature Analysis on SAO Structure Extraction
from Chinese Patent Literatures
RAO Qi, WANG Peiyan, ZHANG Guiping
†
Knowledge Engineering Research Center, Shenyang Aerospace University, Shenyang 110136;
† Corresponding author, E-mail: zgp@ge-soft.com
Abstract In order to resolve the problem of SAO-based relation extraction from Chinese patent literatures, a
series of experiments were implemented by using Support Vector Machines. It focused on the analysis of the
validity of basic lexical information, syntactic information such as the shortest path enclosed tree, and distance
features used in related works. The results show that simple lexical features can contribute to a good performance,
while syntactic features cannot bring a remarkable improvement. Moreover, the feasibility of a new representation
of words, word embeddings, is validated on SAO-based relation extraction.
Key words SAO structure; relation extraction; effectiveness of features; word distributed representation
专利文献作为主要的技术承载体, 对于科学技
术创新有很高的参考价值。近年来, 自然语言处理
的相关技术广泛应用于专利文献分析处理领域。基
于 SAO 结构的功能函数表示法
[1]
的专利定性分析
技术在专利文献分析中应用较广, 可以从发明的用
途、原理、材料、结构和方法等方面解析专利的内
容。SAO 结构抽取作为专利定性分析方法的基础,
其抽取质量对于后续分析应用(如专利相似度计
算
[2]
、专利侵权分析
[3]
等)有直接影响。
SAO 结构(Subject-Action-Object), 源自发明问
题解决理论
[4]
(theory of inventive problem solving,
TIPS), 是表示问题解决方法的基本功能函数单
元。其中主体 S 和客体 O 表示系统中的部件实体,
通常由名词或名词性短语构成, 行为 A 表示实体之
间的操作或关系, 一般由句子中的动词充当。
例句 所 述 数据源 被 设计 为 用于 输出
要 发送 的 数据 比特流。
以上例句中, “所述数据源”是主体 S, “要发送
的数据比特流”是客体 O, “输出”表示主体与客体之
间功能关系的 Action, 抽取出的 SAO 结构用三元
组的形式表示为“(所述数据源, 输出, 要发送的数
据比特流)”。面向专利的 SAO 结构抽取, 是从专利
文本中抽取出(Subject, Action, Object)实体关系三
元组, 其中 Subject 对应于实体 1, Object 对应于实
忧伤的石一
- 粉丝: 25
- 资源: 332
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0