没有合适的资源?快使用搜索试试~ 我知道了~
基于领域类别信息C_value的多词串自动抽取_李超1
需积分: 0 0 下载量 92 浏览量
2022-08-04
11:50:18
上传
评论
收藏 163KB PDF 举报
温馨提示
试读
5页
引言多词串是一种比词携带了更多信息的语言学表示,其应用前景包括信息检索 、机器翻译 、问答系统 、词义消歧以及自动摘要等热门任务[ 1] 。考虑到人工收集多词串
资源详情
资源评论
资源推荐
第 24 卷第 1 期
2010 年 1 月
中文信息学报
JO URNA L OF CH INESE INFO RM A TION PROCESSIN G
V ol 24 No 1
Jan 2010
文章编号 10030077201001009405
基于领域类别信息 Cvalue 的多词串自动抽取
李 超 王会珍 朱慕华 张 俐 朱靖波
东北大学 自然语言处理实验室 辽宁 沈阳 110004
摘要该本的多词串抽取 是自 然语言 处理 领域一 项重 要的 研究内 容 该 文提 出了 一种 多类 别 Cv alueM ulti
Class Cva lue方法 利用 多词串在不同领域的分布信息改善领域 相关的 多词串 抽取的 性能 在汽 车 科 技和旅 行
三个领域的数据上进行实验 评价多词串的准确 率 在 to p100 级别上 较传统的 Cvalue 方法在三个领域中分别 提
高了 12 12 和 13 个百分点 实验结果验证了方法的有效性
关键词 计算机应用 中文信息处理 多词串抽取 多类别 Cvalue 领域信息
中图分类号 TP391文献标识码A
Exploiting Domain Interdependence for MultiWord Terms Extraction
LI Chao WA NG Huizhen ZH U M uhua ZHA NG Li ZH U Jingbo
N atural Languag e Pro ce ssing Lab No rtheastern U niver sity Shenyang Liaoning 110004 china
AbstractAutoma tic multiw o rd te rms ex traction att racts mo re and mo re a ttentio n in the research of natural
language pr ocessing This paper pro po ses a M ultiClass Cv alue metho d which uses the distributio n o f multiwo rd
terms in different do mains to improve the perfo rmance o f multiw o rd te rms ext raction I n the experiment w ith the
data of automobile techno log y and t rip the precisions of top 100 multiwo rd terms a re 12 12 and 13 hig he r
than the clssical Cvalue me tho d in three domains respectively
Key wordscomputer applica tion Chinese info rmation processing multiw o rd term s ext raction M ultiClass C
value domain info rmation
收稿日期 20090525 定稿日期 20091105
基金项目 国家自然科学基金资助项目60873091辽宁省自然科 学基金资助项目20072032沈阳市科学技 术计划资
助项目1081235100
作者简介 李超1986 男 硕士 主要研究方向为自然语言处理王会珍1980 女 博士 助教 主要研究方向为自 然
语言处理 朱慕华1981 男 博士 主要研究方向为自然语言处理
1 引言
多词串是一种比词携带了更多信息的语言学表
示 其应用前景包括信息检索 机器翻译 问答系统
词义消歧以及自动摘要等热门任务
1
考虑到人工
收集多词串的高昂代价以及信息时代领域知识的更
新速度 如何用自动或者半自动的方法获取多词串
就成为了自然语言处理领域的一个重要问题
到目前为止 多词串的自动抽取方法包括最开
始提出的基于语言学规则的方法
24
以及后期提出
的基于频率统计的抽取方法
58
Cv alue 方法是目
前用于解决多词串抽取问题最为常用的方法之一
该方法考虑了候选多词串的频次 多词串的长度以
及多词串间相互包含的信息并以一个有序的多词串
列表作为输出结果 以 前的研究工作 已经证明了
Cv alue 方法的有效性
9
但是 采用传统的 Cv alue 方法进行多词串抽
取时 对于不同领域的抽取过程是独立进行的 那么
就存在一些多词串在多个领域的计算结果中都会得
到较大的 Cvalue 值 最终在输出列表中均获得较
高的排位 也就意味着它们在多个领域中同时具有
较高重要性 对领域类别具有较弱的指示作用 不
应该作为领域多词串的抽取结果
三山卡夫卡
- 粉丝: 17
- 资源: 323
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0