没有合适的资源?快使用搜索试试~ 我知道了~
中文专利文献术语自动识别研究_杨双龙1
需积分: 0 0 下载量 88 浏览量
2022-08-03
14:57:34
上传
评论
收藏 445KB PDF 举报
温馨提示
试读
8页
摘要:中文专利文献中含有大量领域术语,对这些术语进行自动识别是信息抽取、文本挖掘等领域的重要任务。该文提出了基于专利文献标题的术语词性规则自动生成方法以及针对候
资源推荐
资源详情
资源评论
第
30
卷
第
3
期
2016
年
5
月
中文信息学报
JOURNAL
OF
CHINESE
INFORMATION
PROCESSING
Vol.30
,
No.3
Ma
y
.
,
2016
文章编号
:
1003
-
0077
(
2016
)
03
-
0111
-
07
中文专利文献术语自动识别研究
杨双龙
1
,
吕学强
1
,
李卓
1
,
徐丽萍
2
(
1.
北京信息科技大学 网络文化与数字传播北京市重点实验室
,
北京
100101
;
2.
北京城市系统工程研究中心
,
北京
100089
)
摘
要
:
中文专利文献中含有大量领域术语
,
对这些术语进行自动识别是信息抽取
、
文本挖掘等领域的重要任务
。
该文提出了基于专利文献标题的术语词性规则自动生成方法以及针对候选术语排序的
TermRank
算法
。
该方法
首先从大量的中文专利文献标题中自动生成词性规则
;
然后利用生成的词性规则对中文专利文献正文部分进行规
则匹配获得候选术语表
;
再利用提出的
TermRank
排序算法对候选术语表排序
,
最终得到术语列表
。
通过在
9
725
篇中文专利文献数据上实验
,
证实了该方法的有效性
。
关键词
:
术语自动识别
;
专利文献
;
信息抽取
;
文本挖掘
Automatic
Reco
g
nition
of
Terms
in
Chinese
Patent
Literature
YANG
Shuan
g
lon
g
1
,
LV
Xue
q
ian
g
1
,
LI
Zhuo
1
,
XU
Li
p
in
g
2
(
1.Bei
j
in
g
Ke
y
Laborator
y
of
Internet
Culture
and
Di
g
ital
Dissemination
Research
,
Bei
j
in
g
Information
Science
and
Technolo
gy
Universit
y
,
Bei
j
in
g
100101
,
China
;
2.Bei
j
in
g
Research
Center
of
Urban
S
y
stem
En
g
ineerin
g
,
Bei
j
in
g
100089
,
China
)
Abstract
:
Chinese
p
atent
literatures
contain
abundant
domain
-
s
p
ecific
terms
,
and
automatic
reco
g
nition
of
terminolo
-
gy
is
an
im
p
ortant
task
in
information
extraction
and
text
minin
g
.In
this
p
a
p
er
,
we
p
ro
p
ose
an
a
pp
roach
of
automat
-
ic
g
eneration
of
term
formation
rules
and
a
novel
TermRank
al
g
orithm.Firstl
y
,
we
focus
on
g
eneratin
g
a
set
of
term
formation
rules
automaticall
y
throu
g
h
a
lar
g
e
number
of
p
atent
titles
and
then
a
pp
lied
those
rules
to
p
atent
texts
for
term
candidates.Finall
y
,
the
TermRank
al
g
orithm
decides
the
final
terms.Ex
p
erimental
results
on
9725Chinese
p
atent
literatures
demonstrate
the
effectiveness
of
the
p
ro
p
osed
a
pp
roach.
Ke
y
words
:
automatic
term
reco
g
nition
;
p
atent
literature
;
information
extraction
;
text
minin
g
收稿日期
:
2014
-
03
-
20
定稿日期
:
2014
-
05
-
16
所属课题
:
国家自然科学基 金
(
61271304
);
北京市教委科技发展计划重点项目暨北京市自然科学基金
B
类 重点 项 目
(
K Z201311232037
);
北京市属高等学校创新团队建设与教师职业发展计划项目
(
ID H T20130519
)
1
引言
自动术语识别
(
Automatic
Term
Reco
g
nition
,
ATR
)
是信息抽取研究领域的重要组成部分
。
它是
指通过无人工干预或尽量少的人工干预方法
,
从自
由文本中自动识别出能够代表某个专业领域中一般
概念的词汇串的过程
。
通过术语自动识别技术构建
的术语库是非常重要的基础数据资源
,
为中文分词
、
本体构建
、
词典编撰与更新
、
自动标引
、
信息检索以
及机器翻译等提供不可或缺的数据支持
。
此外
,
伴
随着信息技术的高速发展
,
数字化信息资源与日俱
增
,
对这些资源进行术语的自动识别对于及时把握
领域最新发展状况及未来发展趋势具有十分重要的
意义
。
中文专利文献是重要的数字化信息资源
,
它们
记载着各学科领域的最新发明成果
,
其中存在着大
量的专业术语
。
结合对中文专利文献的观察分析与
前人
[
1
-
2
]
的研究
,
发现专利文献中的术语具有如下几
个明显特点
:(
1
)
专利文献中的术语嵌套现象较为
常见
;(
2
)
专利文献中的术语具有较强的领域相关
性
,
即高频率出现在某一领域的术语在另外的领域
资源评论
田仲政
- 粉丝: 15
- 资源: 332
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功