【免费】中文专利文献术语自动识别研究

需积分: 0 88 浏览量 2022-08-03 14:57:34 上传评论收藏 445KB PDF 举报

资源推荐

资源详情

资源评论

第

３０

卷

第

３

期

２０１６

年

５

月

中文信息学报

ＪＯＵＲＮＡＬ

ＯＦ

ＣＨＩＮＥＳＥ

ＩＮＦＯＲＭＡＴＩＯＮ

ＰＲＯＣＥＳＳＩＮＧ

Ｖｏｌ．３０

，

Ｎｏ．３

Ｍａ

ｙ

．

，

２０１６

文章编号

：

１００３

－

００７７

（

２０１６

）

０３

－

０１１１

－

０７

中文专利文献术语自动识别研究

杨双龙

１

，

吕学强

１

，

李卓

１

，

徐丽萍

２

（

１．

北京信息科技大学网络文化与数字传播北京市重点实验室

，

北京

１００１０１

；

２．

北京城市系统工程研究中心

，

北京

１０００８９

）

摘

要

：

中文专利文献中含有大量领域术语

，

对这些术语进行自动识别是信息抽取

、

文本挖掘等领域的重要任务

。

该文提出了基于专利文献标题的术语词性规则自动生成方法以及针对候选术语排序的

ＴｅｒｍＲａｎｋ

算法

。

该方法

首先从大量的中文专利文献标题中自动生成词性规则

；

然后利用生成的词性规则对中文专利文献正文部分进行规

则匹配获得候选术语表

；

再利用提出的

ＴｅｒｍＲａｎｋ

排序算法对候选术语表排序

，

最终得到术语列表

。

通过在

９

７２５

篇中文专利文献数据上实验

，

证实了该方法的有效性

。

关键词

：

术语自动识别

；

专利文献

；

信息抽取

；

文本挖掘

Ａｕｔｏｍａｔｉｃ

Ｒｅｃｏ

ｇ

ｎｉｔｉｏｎ

ｏｆ

Ｔｅｒｍｓ

ｉｎ

Ｃｈｉｎｅｓｅ

Ｐａｔｅｎｔ

Ｌｉｔｅｒａｔｕｒｅ

ＹＡＮＧ

Ｓｈｕａｎ

ｇ

ｌｏｎ

ｇ

１

，

ＬＶ

Ｘｕｅ

ｑ

ｉａｎ

ｇ

１

，

ＬＩ

Ｚｈｕｏ

１

，

ＸＵ

Ｌｉ

ｐ

ｉｎ

ｇ

２

（

１．Ｂｅｉ

ｊ

ｉｎ

ｇ

Ｋｅ

ｙ

Ｌａｂｏｒａｔｏｒ

ｙ

ｏｆ

Ｉｎｔｅｒｎｅｔ

Ｃｕｌｔｕｒｅ

ａｎｄ

Ｄｉ

ｇ

ｉｔａｌ

Ｄｉｓｓｅｍｉｎａｔｉｏｎ

Ｒｅｓｅａｒｃｈ

，

Ｂｅｉ

ｊ

ｉｎ

ｇ

Ｉｎｆｏｒｍａｔｉｏｎ

Ｓｃｉｅｎｃｅ

ａｎｄ

Ｔｅｃｈｎｏｌｏ

ｇｙ

Ｕｎｉｖｅｒｓｉｔ

ｙ

，

Ｂｅｉ

ｊ

ｉｎ

ｇ

１００１０１

，

Ｃｈｉｎａ

；

２．Ｂｅｉ

ｊ

ｉｎ

ｇ

Ｒｅｓｅａｒｃｈ

Ｃｅｎｔｅｒ

ｏｆ

Ｕｒｂａｎ

Ｓ

ｙ

ｓｔｅｍ

Ｅｎ

ｇ

ｉｎｅｅｒｉｎ

ｇ

，

Ｂｅｉ

ｊ

ｉｎ

ｇ

１０００８９

，

Ｃｈｉｎａ

）

Ａｂｓｔｒａｃｔ

：

Ｃｈｉｎｅｓｅ

ｐ

ａｔｅｎｔ

ｌｉｔｅｒａｔｕｒｅｓ

ｃｏｎｔａｉｎ

ａｂｕｎｄａｎｔ

ｄｏｍａｉｎ

－

ｓ

ｐ

ｅｃｉｆｉｃ

ｔｅｒｍｓ

，

ａｎｄ

ａｕｔｏｍａｔｉｃ

ｒｅｃｏ

ｇ

ｎｉｔｉｏｎ

ｏｆ

ｔｅｒｍｉｎｏｌｏ

－

ｇｙ

ｉｓ

ａｎ

ｉｍ

ｐ

ｏｒｔａｎｔ

ｔａｓｋ

ｉｎ

ｉｎｆｏｒｍａｔｉｏｎ

ｅｘｔｒａｃｔｉｏｎ

ａｎｄ

ｔｅｘｔ

ｍｉｎｉｎ

ｇ

．Ｉｎ

ｔｈｉｓ

ｐ

ａ

ｐ

ｅｒ

，

ｗｅ

ｐ

ｒｏ

ｐ

ｏｓｅ

ａｎ

ａ

ｐｐ

ｒｏａｃｈ

ｏｆ

ａｕｔｏｍａｔ

－

ｉｃ

ｇ

ｅｎｅｒａｔｉｏｎ

ｏｆ

ｔｅｒｍ

ｆｏｒｍａｔｉｏｎ

ｒｕｌｅｓ

ａｎｄ

ａ

ｎｏｖｅｌ

ＴｅｒｍＲａｎｋ

ａｌ

ｇ

ｏｒｉｔｈｍ．Ｆｉｒｓｔｌ

ｙ

，

ｗｅ

ｆｏｃｕｓ

ｏｎ

ｇ

ｅｎｅｒａｔｉｎ

ｇ

ａ

ｓｅｔ

ｏｆ

ｔｅｒｍ

ｆｏｒｍａｔｉｏｎ

ｒｕｌｅｓ

ａｕｔｏｍａｔｉｃａｌｌ

ｙ

ｔｈｒｏｕ

ｇ

ｈ

ａ

ｌａｒ

ｇ

ｅ

ｎｕｍｂｅｒ

ｏｆ

ｐ

ａｔｅｎｔ

ｔｉｔｌｅｓ

ａｎｄ

ｔｈｅｎ

ａ

ｐｐ

ｌｉｅｄ

ｔｈｏｓｅ

ｒｕｌｅｓ

ｔｏ

ｐ

ａｔｅｎｔ

ｔｅｘｔｓ

ｆｏｒ

ｔｅｒｍ

ｃａｎｄｉｄａｔｅｓ．Ｆｉｎａｌｌ

ｙ

，

ｔｈｅ

ＴｅｒｍＲａｎｋ

ａｌ

ｇ

ｏｒｉｔｈｍ

ｄｅｃｉｄｅｓ

ｔｈｅ

ｆｉｎａｌ

ｔｅｒｍｓ．Ｅｘ

ｐ

ｅｒｉｍｅｎｔａｌ

ｒｅｓｕｌｔｓ

ｏｎ

９７２５Ｃｈｉｎｅｓｅ

ｐ

ａｔｅｎｔ

ｌｉｔｅｒａｔｕｒｅｓ

ｄｅｍｏｎｓｔｒａｔｅ

ｔｈｅ

ｅｆｆｅｃｔｉｖｅｎｅｓｓ

ｏｆ

ｔｈｅ

ｐ

ｒｏ

ｐ

ｏｓｅｄ

ａ

ｐｐ

ｒｏａｃｈ．

Ｋｅ

ｙ

ｗｏｒｄｓ

：

ａｕｔｏｍａｔｉｃ

ｔｅｒｍ

ｒｅｃｏ

ｇ

ｎｉｔｉｏｎ

；

ｐ

ａｔｅｎｔ

ｌｉｔｅｒａｔｕｒｅ

；

ｉｎｆｏｒｍａｔｉｏｎ

ｅｘｔｒａｃｔｉｏｎ

；

ｔｅｘｔ

ｍｉｎｉｎ

ｇ

收稿日期

：

２０１４

－

０３

－

２０

定稿日期

：

２０１４

－

０５

－

１６

所属课题

：

国家自然科学基金

（

６１２７１３０４

）；

北京市教委科技发展计划重点项目暨北京市自然科学基金

Ｂ

类重点项目

（

ＫＺ２０１３１１２３２０３７

）；

北京市属高等学校创新团队建设与教师职业发展计划项目

（

ＩＤＨＴ２０１３０５１９

）

１

引言

自动术语识别

（

Ａｕｔｏｍａｔｉｃ

Ｔｅｒｍ

Ｒｅｃｏ

ｇ

ｎｉｔｉｏｎ

，

ＡＴＲ

）

是信息抽取研究领域的重要组成部分

。

它是

指通过无人工干预或尽量少的人工干预方法

，

从自

由文本中自动识别出能够代表某个专业领域中一般

概念的词汇串的过程

。

通过术语自动识别技术构建

的术语库是非常重要的基础数据资源

，

为中文分词

、

本体构建

、

词典编撰与更新

、

自动标引

、

信息检索以

及机器翻译等提供不可或缺的数据支持

。

此外

，

伴

随着信息技术的高速发展

，

数字化信息资源与日俱

增

，

对这些资源进行术语的自动识别对于及时把握

领域最新发展状况及未来发展趋势具有十分重要的

意义

。

中文专利文献是重要的数字化信息资源

，

它们

记载着各学科领域的最新发明成果

，

其中存在着大

量的专业术语

。

结合对中文专利文献的观察分析与

前人

［

１

－

２

］

的研究

，

发现专利文献中的术语具有如下几

个明显特点

：（

１

）

专利文献中的术语嵌套现象较为

常见

；（

２

）

专利文献中的术语具有较强的领域相关

性

，

即高频率出现在某一领域的术语在另外的领域

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余7页未读，立即下载

评论收藏

内容反馈

田仲政

粉丝: 15
资源: 332

中文专利文献术语自动识别研究_杨双龙1

最新资源

中文专利文献术语自动识别研究_杨双龙1

面向电动汽车领域的专利文献加工和术语抽取方法研究.pdf

基于深度学习的情报学理论及方法术语识别研究_王昊1

论文研究-专利技术术语共现的战略图分析方法.pdf

基于机器学习的技术术语识别研究综述.docx

中英文测试术语对照表v_1[1].2

基于BERT嵌入BiLSTM_CRF模型的中文专业术语抽取研究_吴俊1

论文研究-面向科技领域的术语自动抽取模型.pdf

论文研究-基于条件随机场的领域术语识别研究.pdf

ISTQB软件测试专业术语对照表v3_2.pdf

基于统计和规则相结合的科技术语自动抽取研究

GA 425.1-2003 指纹自动识别系统基础技术规范 第1部分 指纹自动识别系统术语.pdf

基于机器翻译的专利术语翻译获取方法研究

OMAHA七巧板医学术语集入门指南_201904302

Android_术语

论文研究-基于种子扩充的专业术语识别方法研究.pdf

论文研究-中文领域本体学习中术语的自动抽取.pdf

软件设计术语汇编(Software_Design_glossary)

基于深度学习的情报学理论及方法术语识别研究.pdf

计算机英语术语翻译研究

BurpLoaderKeygen.jar.zip

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

Goby红队版-win-x64-2.4.7版本

Chrome Header Editor 插件

ISO SAE 21434-2021 中文版.pdf

OpenVAS GVM 中文翻译补丁

安全认证cisp教材全套

STM32F103C8T6核心板-电路原理图1.PDF

软件工程导论(第六版)课后习题答案1

最新资源

GA 425.1-2003 指纹自动识别系统基础技术规范第1部分指纹自动识别系统术语.pdf