没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
提出一种中文合成词识别及分词修正方法。该方法先采用词性探测从文本中提取词串,进而由提取到的词串生成词共现有向图,借鉴Bellman-Ford算法思想,设计了运行在词共现有向图中识别合成词的算法,即搜索多源点长度最长、权重值满足给定条件的路径,则该路径所对应的词串为合成词。最后,采用核心属性渗透理论对合成词标注词性,同时修正分词结果。实验结果表明,合成词识别正确率达到了91.60%,且分词修正效果良好。
资源推荐
资源详情
资源评论
收稿日期: 2011唱02唱01; 修回日期: 2011唱03唱03 基金项目: 广东省自然科学基金资助项目(9451064101003233) ;广东省科技计划资助项
目(2010B010600039) ;华南理工大学中央高校基本科研业务费专项资金资助项目(2009ZM0125,2009ZM0189,2009ZM0255)
作者简介: 刘兴林(1976唱),男,实验师,博士研究 生,CCF 会员,主 要研 究方向为 智能 计算、数 据挖 掘、文本 知识 获取 等( jmxlliu@163.com );
郑启伦(1938唱),男,教授,博导,博士,主要研究方向为人工智能理论、智能计算技术及其应用等;马千里( 1980唱) ,男,讲师,博士,主要研究方向为
智能计算、混沌时间序列、数据挖掘等.
中 文 合 成 词 识 别 及 分 词 修 正
倡
刘兴林
1,2
, 郑启伦
1
, 马千里
1
(1.华南理工大学 计算机科学与工程学院, 广州 510640; 2.五邑大学 计算机学院, 广东 江门 529020 )
摘 要: 提出一种中文合成词识别及分词修正方法。 该方法先采用词性探测从文本中提取词串,进而由提取到
的词串生成词共现有向图,借鉴 Bellman唱Ford 算法思想,设计了运行在词共现有向图中识别合成词的算法,即搜
索多源点长度最长、权重值满足给定条件的路径,则该路径所对应的词串为合成词。 最后,采用核心属性渗透理
论对合成词标注词性,同时修正分词结果。 实验结果表明,合成词识别正确率达到了 91.60%,且分词修正效果
良好。
关键词: 合成词; 词共现有向图; 词性标注; 分词修正; 自然语言处理
中图分类号: TP301;TP391 文献标志码: A 文章编号: 1001唱3695(2011)08唱2905唱04
doi:10.3969 /j.issn.1001唱3695.2011.08.029
Chinese compound唱word recognition and word segmentation modification
LIU Xing唱lin
1,2
, ZHENG Qi唱lun
1
, MA Qian唱li
1
(1.School of Computer Science & Engineering, South China University of Technology, Guangzhou 510640, China; 2.School of Computer
Science, Wuyi University, Jiangmen Guangdong 529020, China)
Abstract: This paper proposed a Chinese compound唱word recognition and word segmentation modification method.Firstly,
the method got word strings from a text through by part唱of唱speech detecting, then generated word co唱occurrence directed graph,
borrowed the idea of the Bellman唱Ford algorithm to search the longest paths with weight value satisfies the given condition for
multiple starting points in the word co唱occurrence directed graph, the word strings corresponding to the paths are considered as
compound唱words.Lastly, part唱of唱speech tagged of compound唱words by head唱feature percolation, and modified word segmenta唱
tion results.Experimental results show that the proposed method achieves 91畅16% upon the precision, and word segmentation
modification achieving very good performance.
Key words: compound唱word; word co唱occurrence directed graph; part唱of唱speech tagging; word segmentation modification;
natural language processing
0 引言
中文分词是自然语言处理的一个基本环节,分词的准确性
对后续的处理影响极大。 当前中文分词的一个主要难题是未
登录词识别。 未登录词包括命名实体、新词、简称、省略语、合
成词等。 分词系统难以正确处理这些未登录词,如 “ 地大物
博”被切分成“地 /u 大 /a 物/ng 博 /ag”,“上海世博会” 被切分
成“上海 /ns 世/ng 博会 /nr”等。
杨梅
[1]
指出,文档中的词语可以分为两类:原子词和合成
词。 原子词(atomic word)是语言中用于组合形成其他新词的
短词;合成词(compound唱word)由多个原子词构成,遵循意义组
合原理,而且表达了一个完整的概念。 当前的分词系统难以识
别这些合成词,因此研究合成词的识别方法显得迫切且非常有
意义。 合成词识别在机器翻译、文本信息检索、信息抽取等领
域具有重要的应用价值。
1 相关工作
于娟等人
[2]
提出并实现了一种结合词性分析与串频统计
的词语提取方法,该方法先对原子词进行词性分析,并建立保
留词性表、删除词性表以及停用词表,进而对识别到的词串进
行串频统计,当串频达到了给定的阈值时,则提取为词语,总体
准确率达到了 87畅5%。
陈建超等人
[3]
借鉴人类的认知心理模式,提出一种基于
词序列频率有向网的组合词抽取算法,以识别自由文本中的组
合词(combined唱word)。 该算法首先建立描述文本中的词序列
出现频率的有向网,然后通过独特的矩阵运算,逐步把组合词
提取出来。 其优点是无须借助专业的语言知识,组合词提取准
确率达到了 90畅2%。
周蕾等人
[4]
提出一种基于统计和规则的未登录词识别方
法,该方法先对文本进行分词,同时生成临时词典,并利用规则
和频度信息给临时词典中的每个字串赋权值,利用贪心算法获
得每个碎片的最长路径,从而提取未登录词,实验准确率达到
了 81畅25%。
杜楠
[5]
、陈建超
[6]
研究了组合词的识别及分词修正,认为
一个组合词由多个原子词或语素构成,并将组合词的词性标注
第 28 卷第 8 期
2011 年 8 月
计 算 机 应 用 研 究
Application Research of Computers
Vol畅28 No畅8
Aug畅2011
资源评论
weixin_38743602
- 粉丝: 396
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功