中文合成词识别及分词修正(2011年)资源-CSDN文库

工程技术

论文

需积分: 5 120 浏览量 2021-05-19 22:54:34 上传评论收藏 307KB PDF 举报

资源推荐

资源详情

资源评论

　　收稿日期：２０１１唱０２唱０１；修回日期：２０１１唱０３唱０３　　基金项目：广东省自然科学基金资助项目（９４５１０６４１０１００３２３３）；广东省科技计划资助项

目（２０１０Ｂ０１０６０００３９）；华南理工大学中央高校基本科研业务费专项资金资助项目（２００９ＺＭ０１２５，２００９ＺＭ０１８９，２００９ＺＭ０２５５）

作者简介：刘兴林（１９７６唱），男，实验师，博士研究生，ＣＣＦ会员，主要研究方向为智能计算、数据挖掘、文本知识获取等（ｊｍｘｌｌｉｕ＠１６３．ｃｏｍ）；

郑启伦（１９３８唱），男，教授，博导，博士，主要研究方向为人工智能理论、智能计算技术及其应用等；马千里（１９８０唱），男，讲师，博士，主要研究方向为

智能计算、混沌时间序列、数据挖掘等．

中文合成词识别及分词修正

倡

刘兴林

１，２

，郑启伦

１

，马千里

１

（１．华南理工大学计算机科学与工程学院，广州５１０６４０；２．五邑大学计算机学院，广东江门５２９０２０）

摘　要：提出一种中文合成词识别及分词修正方法。该方法先采用词性探测从文本中提取词串，进而由提取到

的词串生成词共现有向图，借鉴Ｂｅｌｌｍａｎ唱Ｆｏｒｄ算法思想，设计了运行在词共现有向图中识别合成词的算法，即搜

索多源点长度最长、权重值满足给定条件的路径，则该路径所对应的词串为合成词。最后，采用核心属性渗透理

论对合成词标注词性，同时修正分词结果。实验结果表明，合成词识别正确率达到了９１．６０％，且分词修正效果

良好。

关键词：合成词；词共现有向图；词性标注；分词修正；自然语言处理

中图分类号：ＴＰ３０１；ＴＰ３９１　　　文献标志码：Ａ　　　文章编号：１００１唱３６９５（２０１１）０８唱２９０５唱０４

ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１唱３６９５．２０１１．０８．０２９

Ｃｈｉｎｅｓｅｃｏｍｐｏｕｎｄ唱ｗｏｒｄｒｅｃｏｇｎｉｔｉｏｎａｎｄｗｏｒｄｓｅｇｍｅｎｔａｔｉｏｎｍｏｄｉｆｉｃａｔｉｏｎ

ＬＩＵＸｉｎｇ唱ｌｉｎ

１，２

，ＺＨＥＮＧＱｉ唱ｌｕｎ

１

，ＭＡＱｉａｎ唱ｌｉ

１

（１．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ＆Ｅｎｇｉｎｅｅｒｉｎｇ，ＳｏｕｔｈＣｈｉｎａＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｇｕａｎｇｚｈｏｕ５１０６４０，Ｃｈｉｎａ；２．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒ

Ｓｃｉｅｎｃｅ，ＷｕｙｉＵｎｉｖｅｒｓｉｔｙ，ＪｉａｎｇｍｅｎＧｕａｎｇｄｏｎｇ５２９０２０，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：ＴｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａＣｈｉｎｅｓｅｃｏｍｐｏｕｎｄ唱ｗｏｒｄｒｅｃｏｇｎｉｔｉｏｎａｎｄｗｏｒｄｓｅｇｍｅｎｔａｔｉｏｎｍｏｄｉｆｉｃａｔｉｏｎｍｅｔｈｏｄ．Ｆｉｒｓｔｌｙ，

ｔｈｅｍｅｔｈｏｄｇｏｔｗｏｒｄｓｔｒｉｎｇｓｆｒｏｍａｔｅｘｔｔｈｒｏｕｇｈｂｙｐａｒｔ唱ｏｆ唱ｓｐｅｅｃｈｄｅｔｅｃｔｉｎｇ，ｔｈｅｎｇｅｎｅｒａｔｅｄｗｏｒｄｃｏ唱ｏｃｃｕｒｒｅｎｃｅｄｉｒｅｃｔｅｄｇｒａｐｈ，

ｂｏｒｒｏｗｅｄｔｈｅｉｄｅａｏｆｔｈｅＢｅｌｌｍａｎ唱Ｆｏｒｄａｌｇｏｒｉｔｈｍｔｏｓｅａｒｃｈｔｈｅｌｏｎｇｅｓｔｐａｔｈｓｗｉｔｈｗｅｉｇｈｔｖａｌｕｅｓａｔｉｓｆｉｅｓｔｈｅｇｉｖｅｎｃｏｎｄｉｔｉｏｎｆｏｒ

ｍｕｌｔｉｐｌｅｓｔａｒｔｉｎｇｐｏｉｎｔｓｉｎｔｈｅｗｏｒｄｃｏ唱ｏｃｃｕｒｒｅｎｃｅｄｉｒｅｃｔｅｄｇｒａｐｈ，ｔｈｅｗｏｒｄｓｔｒｉｎｇｓｃｏｒｒｅｓｐｏｎｄｉｎｇｔｏｔｈｅｐａｔｈｓａｒｅｃｏｎｓｉｄｅｒｅｄａｓ

ｃｏｍｐｏｕｎｄ唱ｗｏｒｄｓ．Ｌａｓｔｌｙ，ｐａｒｔ唱ｏｆ唱ｓｐｅｅｃｈｔａｇｇｅｄｏｆｃｏｍｐｏｕｎｄ唱ｗｏｒｄｓｂｙｈｅａｄ唱ｆｅａｔｕｒｅｐｅｒｃｏｌａｔｉｏｎ，ａｎｄｍｏｄｉｆｉｅｄｗｏｒｄｓｅｇｍｅｎｔａ唱

ｔｉｏｎｒｅｓｕｌｔｓ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄａｃｈｉｅｖｅｓ９１畅１６％ｕｐｏｎｔｈｅｐｒｅｃｉｓｉｏｎ，ａｎｄｗｏｒｄｓｅｇｍｅｎｔａｔｉｏｎ

ｍｏｄｉｆｉｃａｔｉｏｎａｃｈｉｅｖｉｎｇｖｅｒｙｇｏｏｄｐｅｒｆｏｒｍａｎｃｅ．

Ｋｅｙｗｏｒｄｓ：ｃｏｍｐｏｕｎｄ唱ｗｏｒｄ；ｗｏｒｄｃｏ唱ｏｃｃｕｒｒｅｎｃｅｄｉｒｅｃｔｅｄｇｒａｐｈ；ｐａｒｔ唱ｏｆ唱ｓｐｅｅｃｈｔａｇｇｉｎｇ；ｗｏｒｄｓｅｇｍｅｎｔａｔｉｏｎｍｏｄｉｆｉｃａｔｉｏｎ；

ｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ

０　引言

中文分词是自然语言处理的一个基本环节，分词的准确性

对后续的处理影响极大。当前中文分词的一个主要难题是未

登录词识别。未登录词包括命名实体、新词、简称、省略语、合

成词等。分词系统难以正确处理这些未登录词，如 “ 地大物

博”被切分成“地／ｕ大／ａ物／ｎｇ博／ａｇ”，“上海世博会” 被切分

成“上海／ｎｓ世／ｎｇ博会／ｎｒ”等。

杨梅

［１］

指出，文档中的词语可以分为两类：原子词和合成

词。原子词（ａｔｏｍｉｃｗｏｒｄ）是语言中用于组合形成其他新词的

短词；合成词（ｃｏｍｐｏｕｎｄ唱ｗｏｒｄ）由多个原子词构成，遵循意义组

合原理，而且表达了一个完整的概念。当前的分词系统难以识

别这些合成词，因此研究合成词的识别方法显得迫切且非常有

意义。合成词识别在机器翻译、文本信息检索、信息抽取等领

域具有重要的应用价值。

１　相关工作

于娟等人

［２］

提出并实现了一种结合词性分析与串频统计

的词语提取方法，该方法先对原子词进行词性分析，并建立保

留词性表、删除词性表以及停用词表，进而对识别到的词串进

行串频统计，当串频达到了给定的阈值时，则提取为词语，总体

准确率达到了８７畅５％。

陈建超等人

［３］

借鉴人类的认知心理模式，提出一种基于

词序列频率有向网的组合词抽取算法，以识别自由文本中的组

合词（ｃｏｍｂｉｎｅｄ唱ｗｏｒｄ）。该算法首先建立描述文本中的词序列

出现频率的有向网，然后通过独特的矩阵运算，逐步把组合词

提取出来。其优点是无须借助专业的语言知识，组合词提取准

确率达到了９０畅２％。

周蕾等人

［４］

提出一种基于统计和规则的未登录词识别方

法，该方法先对文本进行分词，同时生成临时词典，并利用规则

和频度信息给临时词典中的每个字串赋权值，利用贪心算法获

得每个碎片的最长路径，从而提取未登录词，实验准确率达到

了８１畅２５％。

杜楠

［５］

、陈建超

［６］

研究了组合词的识别及分词修正，认为

一个组合词由多个原子词或语素构成，并将组合词的词性标注

第２８卷第８期

２０１１年８月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ畅２８Ｎｏ畅８

Ａｕｇ畅２０１１

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余3页未读，立即下载

评论收藏

内容反馈

weixin_38743602

粉丝: 396
资源: 2万+

中文合成词识别及分词修正 (2011年)

最新资源

中文合成词识别及分词修正 (2011年)

语音合成及识别

一种基于LUCENE的中文分词算法研究倡 (2011年)

汉语自动分词中中文地名识别 (2006年)

电信设备-一种基于中文分词识别不规则垃圾短信的方法.zip

汉语分词系统

中文分词词库大全词库

基于词共现有向图的中文合成词提取算法1

语音合成与识别

电话拨号音的合成与识别.zip

基于Flask Web的中文自动语音识别演示系统,包含语音识别语音合成声纹识别之说话人识别源码+运行说明.zip

中英文实体识别数据集，中英文机器翻译数据集,中文分词数据集.zip

gohanlp:中文分词词性标注命名实体识别依存句法分析语义依存分析新词发现

ansj_seg:ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典

python实现基于中文TaCL-BERT的中文命名实体识别及中文分词.zip

引入局部统计识别高频词汇的Lucene中文分词程序src.rar

基于 MATLAB GUI 的电话拨号音的合成与识别

电话拨号音的合成与识别

语音合成及识别dll

Android 科大讯飞 离线版 命令词识别

Solr5.5搜索引擎之分词原理说明.docx

chinese-address-segment:中文地址分词（地址元素识别与抽取），通过序列标注进行NER

引入局部统计识别高频词汇的Lucene中文分词程序STUSegmentConfig.rar

最大匹配法中文分词及人名智能识别程序

中文NLP实体识别任务之ONE-HOT标注数据（BIOES）修复BERT分词数据偏移

基于N最短路径方法与中国人名 识别的中文分词系统

讯飞离线语音命令词识别语义及其使用文档

电话拨号音的合成与识别.rar_areajnm_电话拨号_电话拨号音的合成与识别

最新资源

Android 科大讯飞离线版命令词识别

基于N最短路径方法与中国人名识别的中文分词系统