论文研究-结合词性分析与串频统计的词语提取方法.pdf

所需积分/C币:9 2019-09-20 15:23:46 549KB .PDF
5
收藏 收藏
举报

论文研究-结合词性分析与串频统计的词语提取方法.pdf,  在介绍分析现有主要提词方法的基础上,提出并实现了一种结合词性分析与串频统计的词语提取方法.文章首先详细描述了该方法的原理与框架,同时结合实例说明了其实现过程.然后将该方法与已有的具代表性的文本提词方法作计算结果的对比分析,结果表明该方法能够提取得到电子文档中包括原子词与合成词在内的所有词语,并且准确率与召回率较之前的方法均有很大提高
第1期 于娟,等:结合词性分析与串频统计的词语提取方法 107 例1在今天,信息系统为企业提供了通信和分析能力,使其可以在全球范围内指导贸易和管理业务.全 球性企业要与分销商和供应商通信,要在不同国家的环境之下每天24小时运作,要为本地和国际范围内的 需求提供服务,因此控制全球性企业是一个主要的商业挑战,它需要功能强大的信息系统的响应 32文本分词与标注 该模块对标准化文本进行原子词切分,并标注每个词的二级词性.所谓原子词切分是指扫描文本,将其 切分为原子词的自然语言处理技术.日前,最具代表性的中文原子词切分系统有二:1)中国科学院计算技术 研究所基于统计方法和简单语法分析研发的 ICTCLAS1-12;2)哈尔滨工业大学信息检索研究室基于统计 方法的 ISLAS系统.这两个分词系统都能达到90%以上的准确率.本文采用 ICTCLAS实现文本分词与 原子词词性标注.本文所用 ICTCLAS1.0版本是一个公开源码的免费的测试版本.该版本对原子词的词性 标注有两种,一种是一级词性标注,即,名词(标注为m),动词(v)等;另一种是二级词性标注山,将一级标 注细化为不同的细分词性,如名词被细分为名词性语素(ng),人名(nr),地名(ns),等 例1中的标准化文本经过 ICTCLAS1.0切分和词性标注后的结果如例2所示 例2在/p今天/,w信息n系统/n为/p企业/n提供/v了/u通信/vn和/c分析/vn能力/n,/w 便/v其/r可以/V在/全球/n范围/n内/f指导/v贸易/n和/c管理/Ⅶn业务/n·/w全球性/n企业/n要/v 与/c分销/Ⅶn商/和/c供应商/n通信/Ⅶn,/w要/在/p不同/a国家/n的/u环境/n之下/f每天/r24/m 小时/n运作/vn,/w要/v为/p本地/r和/国际/n范围/n内/f的/u需求/n提供v服务/Ⅶn,/w因此/控 制/vn全球性/n企业/n是y一个/m主要/b的/u商业/n挑战/Ⅶm,/w它/r需要/功能/n强大/a的/信 息/n系统/n的/u响应/vn./w 需要说明的是,1 CTCLAS1.0是 ICTCLAS的早期版本.其最新版本 ICTCLAS304对一级和二级词 性中有必要加以区别的子类进行更为细致地划分,扩充了二级词生,并增加三级词性.如,将动词(v)的二级 词性扩充为:趋向动词(ⅵf),形式动词(wx),不及物动词(ⅵi),动词是(vshi),动词有(wωu,等.二级词性人 名(nr)细分为三级词性:汉语姓氏(nr1),汉语名字(nr2),音译人名(nrf)等.可以合理猜测,如果分词与词 性标注模块采用3.0版本,将会使本文中的方法获得更优良的性能. 33无用原子词删除 该模块处理经过原子词切分和词性标注的文本,分两步删除那些一般不参与组成合成词的原子词,输出 结果为由保留原子词组成的一组词串的集合.该模块首先根据词性删除无法构词的原子词,将标注为特定词 性的词删除,如介词,语气词等.然后删除停用原了词,即那些从词性上判断有可能枃成合成词但试验证明 般不参与构词的词,如,是,把握,进行,不少等 为方便后续说明,做如下定义 定义1原子词串( Atomic word scrics/ string),是山一个或多个原子词组成的有限序列本文记为AWS a1-22-…an1-”,AWS是原子词串名,a12-…an-为原子词串值,an(1≤i≤m)是原子词,m为 原子词串的长度.原子词之间的隔离符为半角空格,为明显起见,不妨采用下划线“”表示空格 定义2原子词串的子串,是由原子词串中任意个连续的原子词组成的子序列 331根据词性删除 这一步骤根据词性删除无法构词的鳳子词、在输入经过切分和词性标注的文本后,该模块倸留那些标注 为特定诃性的原子词,将不能构词或者试验证明构词率低于阈值的原子词替换为换行符,这样,输岀的是原 子词串的有序集合,原子词串由保留的原子词构成.输出结果中,原子词之间采用单个空格作为间隔,原子词 串之间采用换行符作为间隔 该模块采用两种标准决定词性是否保留:一个是经验确定不參与构词的词性,如介词,助词等;另一个是 大量试验结果证明构词率过低(本文指低于0.05)的词性所谓构词率(Word- formation ratic)是指:包含该 词性原子词的原子词串是词语的概.即: 构词率 词语的数目 包含该词性原子词的原子词串的数目 表1列举所有保留的词性,包括一级词性及其细分的二级词性 表2列举被删除的词性.其中的个别词性在特殊情况下也参与构词,但因其构词率极低,保留这些词性 将大幅降低整个提词方法的泩确率,因此,在不大幅影响召回率的情况下,选择排除这些词性. 108 系统工程理论与实践 第30卷 表1保留的词性 级词性 表示符号 几级词性 构词率 举例 名词 级 功能/n强大/a 名词性语素 级 DNA/nx断链/ng反应/v 人名 nI 二级 贝叶斯/n方法/n 地名 二级 四川 机构团休名 二级 卫生部/nt 未知词 IX 二级 ATM/nx 其他专名 nz 二级 海尔/nz集团/n 动词 级 知识/n产权/n溢用/v 副动词 二级 0.13 智能/n辅助/vd决策/v 动词性语素 二级 0.0 中国/s企业/n集/vg群/ng 名动词 二级 安全/an管理/vn 副词性语素 d 二级 0.095 产品/n差/dg异化/v 形容词 级 0.086 独立/a董事/n 副形词 二级 0.074 信息/n系统/ad集成/v 形容词性语素 二级 0.087 知/ag性/ng 名形词 an 二级 危险/an源/ng 区别词 b 级 中小/b投资者/n 前缀 级 非/h负/b矩阵/n 后缀 k 级 学习/v型/k组织/v 惯用语 级 自然规律/1 处所词 级 0.077 地下/s水资源/n 状态词 级 随机/z变量 表2删除的词性 级词性 表示符号 几级词性 构词率 举例 时间词 瞬间/t 时间词性语素 tg 0.03 供货/v商/tg 方位词 f 0.026 经济/n背景/n下/f 代词 我们/r 数词 叉/n树/ 量词 多/m年/ 副词 d 随机/d分析/y 介词 p 级级级级级级级级级级级级级 根据/p 连词 和/c 助词 地/u 叹词 唉/ 语气词 啊/y 拟声词 咔/o嚓/o 字符串 豆/n芾/x矸/nr 点符号 表1和表2将二级标注的词性分为保留词性和删除词性两种.需要说明的是: 1)表1中,区别词,前缀,后缀,惯用语,状态词等词性是依据多次试验结果证明需要保留的词性 2)两表中,列出构词率的词性是那些对于是否删除存在争议的词性.其中,试验证明构词率高于0.05的 词性被保留 3)两个表列举了 ICTCLAS1.0中使用到的所有的一级和二级词性 4)尽管 ICTCLAS1.0是一个原子词切分系统.但是个别词性也会出现合成词,如,惯用语.这不会对本 文方法的性能产生影响 例2中的文本经过该模块处理后生成一个原子词串的有序集合,如例3所示 第1期 于娟,等:结合词性分析与串频统计的词语提取方法 109 332停用原子词删除 该步骤依据停用原子词词表进一步删除原子词,将停用原子词替换为换行符,由此生成新的原子词串的 有序集合停用词词表中的词是标注为保留词性但一般不能构词的原子词,如,是()要(v)提供(),不少 (a)等.本文依据项目小组以前的工作中积累下的停用词词表以及试验结果建立了该方法中的停用原子词词 表 例3中的原子词串集合经过停用原子词删除的处理后形成了新的原子词串集合,如例4所示 例 例4 国家 不同国家 环境 信息系统 环境 信息系统 小时运作 企业提供 小时运作 企业 国际范围 通信 要 選信 分析能力 国际范围 能力 服务 需求提供服务 全球茫围 控制全球性企业 可以 控制仝球性企业是 贸易 商业 全球范围 主要 管理业务 功能强大 指导贸易 商业挑哉 全球性企业 信息系统 管理业务 需要功能强大 分销商 响应 全球生企业要 信息系统 供应商通信 分销商 供应商通信 34以原子词为步长提词 上述模央将初始输入的电子文档处理为一组原子词串的有序集合.本模块提取这些原子词串的子串,输 出在文档中多次出现的子串,作为倏选词语.这些候选词语包括原子词、合成词以及部分不成词的汉字串 该模块算法的思想为∷:由构词率较高的原子词相邻共现所组成的词串在文档中出现的频率越高,越有可能成 词.算法步骤如下 1)对于集合中的每一个原子词串AW,执行2) 2)对于原子词串的每一个原子词,顺序执行3)、4). 3)切分得到以该原子词为首的AWS的所有子串 4)对于每一个子串,执行5 5)判断子串在语料中出现的次数是否超过N次(N为可设定参数),如果是,执行6):否则.执行7) 6)去除子串中的间隔符形成汉字串,作为候选词语保存并保存其出现频率 7)返回2)开始下一原子词 也即,对于AS=a1002-.2-.n- 表3结合词性标注与串频统计的词语提取方法结果 判断顺序为 序号 Te erm Frequency 1)a1 企业 2)a1-a 全球 全球性 2 1)a1-U2 全球性企业 i+1)a1-02-…a-1-出现次数小于N次 5 通信 2 系统 i+3)a2-ae3 信息 2 信息系统 9 范围 2 对例4中的原子词串集合使用该算法,得到的 候选词语如表3所示 耗时(秒) 0.15 35不成词删除 该模块自动删除提取结果中包含在不成词词典中的候选词语,即,删除自动提取结果中不成词的候选词 语,以提高自动提取的准确率. 110 系统工程理论与实践 第30卷 本文方法将人工挑出的不成词(如,“系统需求”,“模糊加权神经”等)加入到不成词词典中,防止以后计 算中再次将其列为候选词语而导致人工的重复劳动.这样一来,自动提取结果的准确率将随着不断丰富的不 成词词典而持续提高 36人工选取 自动提取的结果作为候选词语集合提供给人工审定,选取其中的一个子集合作为最终的词语提取结果 子集合之外的候选词语添加到不成词词典中,用于提高后续计算的准确率 4性能分析 表4长度优先切词方法结果 序号 Term frequency 为了说明本文方法的性能,本节采用实验结果将该方 458 全球性企业 法与当前具有代表性的提词方法作对比分析.后述实验中, 通信 各个方法均在同样的硬件和软件环境下进行测试 信息系统 222 实验一对于例1中的文本,采用文献⑤提出的长度 耗时(秒)0.03 优先的词语提取方法进行处理,得到的结果如表4所示 实验二采用文献]中的实验语料比较木文的方法与文献[5]提出的方法.该实验对两个领域的大语料 进行处理:信息领域的文本篇数482,字数90845;管理领域的文本篇数245,字数46325.表5是在停用词 相同的情况下两种方法的计算结果的比较 表5本文方法与长度优先切词方法的结果比较 语料及其处理方法 信息 管理 本文方法 长度优先切词 本文方法 长度优先切词 耗时(秒 93 自动提词数目 4728 4463 2281 2338 成词数目 4154 3545 1984 1940 准确率 0.88 0.79 0.87 0.83 对表4和表5的说明 1)表5中,“自动提词数目”行展示自动提取的汉字串的数目.为了明确地比较两种方法的效果,本文 方法”列出的是尚未经过不成词词典删除的结果,即,未将过往提词的人工积累结果记入.“成词数目”为白 动提取所得汉字串中经由人工选取确定为词语的数目 2)由表5可以看到:本文的提词方法表现出较高的准确率.原因在于:长度优先切词方法在切分获得汉 字串子串时未考虑词法,以致最终将部分不成词的子串误列入自动提词结果,如“系统工”,“识管理”等;本 文的方法则避免了这一问题 3)在这两个实验中,本文的提词方法同时也显示了较高的召回率 4)由于本文方法是一种综合了词性分析与统计的方法,所以,在处理相同文档时,该方法比传统的仅依 靠统计和仅依靠词性分析的方法速度慢. 另外.对一个215K的大语料,同时采用本文的方法以及对提词方法产生一定影响的文献7中的方法 作比较.结果表明,本文的方法在兼顾准确率和召回率方面表现优良,在新词提取方面的准确率和召回率尤 为突出 5结论 本文提出了一种自动提取电子文档中词语的新方法.该方法综合了词性分析与统计方法.首先将文档处 理为标准化文本,然后将文本切分为原子词并删除停用原子词,形成一组原」词串,对这些原子词串进行子 串提取和词频统计,得到电子文档中的词语.本文的方法在切分汉字串时,以原子词为步长,避免了因原子词 被切分导致的错误提取,如“系统工”,“识管理”等.并且,该方法在提取合成词时表现出较高的性能,对于很 少单独使用的合成词也能够提取得到,如“决策支持”等 实验结果证明,该方法能够在保证召回率的同时,满足准确率的要求,并且不受电子文档大小的影响.但 是,由于目前的切词和词性标注系统仅能够切分中文文本和标注中文词的词性,所以,本文的方法仅适用于 中文词语提取 第1期 于娟,等:结合词性分析与串频统计的词语提取方法 111 今后的研究重点有两方面,一为改进该方法使其能够适用于其它语种自然语言文档的词语提取.另外, 继续完善该方法使其时间复杂度降低. 参考文献 1 Yu Dang Y Z. Learning domain feature from text corpora[Cl// Management Track within WiCOM: Engineer- ing, Services and Knowledge Management, 2008: 12-17 2]杨梅.现代汉语合成词构词研究⑦D].南京师范大学,2006 Yang M. The construction of modern Chincse compound word D. Nanjing Normal University, 2006 3]王淑乍.意义组合原理及汉语屮的“词”处理J].宁夏大学学报:人文社会科学版,2007,29(3):1520 Wang S H Principlc of compositionality Chinesc word proccssingJ. Journal of Ningxia University: Humanitics Social Science Edition, 2007, 29(3): 15-20 [4]陈波.逻辑哲学原理M]北京:北京大学出版社,2000:27 Chen B. Philosophy of Logic[M]. Beijing: Peking University Press, 2000: 27 5]姜韶华,党延忠.基于长度递减与串频统计的文本切分算法[情报学报,2006,25(1):74-79 Jiang Sh, DangY Z Segmentation algorithm for Chinese text based on length descending and string frequency statisticsJ. Journal of the China Society for Scientific and Technical Information, 2006, 25(1):74-79 l]姜韶华,党延忠,宦照国.无词典抽词的 RMMFS和 BMMFS方法及其比较硏究]·情报学报,206,·25(4):499-503 Jiang s Il, Dang Y Z. Xuan Z G. Comparative study on RMMFS and bmmfs of Chinese word extraction without using dictionary J. Journal of the China Society for Scientific and Technical Information, 2006, 25(4) 499-503 7 Chien L F. PAT-tree-based keyword extraction for Chinese information retrieval[C//Proceedings of the 20th An nual International ACM SIGIR Conference on Research and Development in Information Retrieval, Philadelphia, Pennsylvania, United States, 1997: 27-31 68]付德宇,代成琴.一个面向文本分类的中文特征词白动抽取方法[J.计算机工程与应用,2006,15:165-16 Fu DY, DaiC Q. A method of Chinese lexical items'extraction for text categorizationJ. Computer Engineering and applications, 2006, 15: 165-167 9 Sui Z F, Chen Y R, Hu J F, et al. The research on the automatic term extraction in the domain of information science and technology[C// Proceedings of the 5th East Asia Forum of the Terminology, 2002 10]苑春法,黄昌宁.基于语素数据库的汉语语素及构词研究J].语言文字应用,1998,(3):83-88 Yuan C F, Huang C N. Chinese word construction research based on morpheme database [J]. Applied Linguistics 1998,(3):83 [1]ICTCLAS.汉语词法分析系统[EB/OL].[2007-116].htp:/www.nlp.org.cn/project/project,php?proj_id=6 IcTclas.ChineselexicalanalysissystemEb/ol.2007-11-6.http://www.nlp.orgcn/project/project.php? proi_id=6 12]张华平,刘群.基于N-最短路径方法的中文词语粗分模型[.中文信息学报,2002,(5):1-7. Zhang H P, liu Q. Model of Chinese words rough segment ation based on N-shortest-paths met hod JJ.Journa. of Chinese Information Processing, 2002, (5 :1-7 13 IRLAS.哈尔滨L业大学信息检索实验室[EB/OL].[207-11-6].htp:// r hit .edu. cn/ IrLas.IiiTIrLabEb/ol.2007-11-6.http://ir.hit.edu.cn/. [14刘群,张华平,张浩ICTCLAS2008汉语词性标注集Ebol.2008-11-4.http://ictclas.org/ictclas_docs_003.html Liu Q, Zhang II P, Zhang II. Chinese part-of-speech tag-set of ICTCLAS2008 EB/OL.2008-11-4. htt //ictclas. org/ictclas._003. html

...展开详情
试读 7P 论文研究-结合词性分析与串频统计的词语提取方法.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
weixin_38744153 你的留言是对我莫大的支持
2019-09-20
  • 至尊王者

    成功上传501个资源即可获取
关注 私信 TA的资源
上传资源赚积分or赚钱
    最新推荐
    论文研究-结合词性分析与串频统计的词语提取方法.pdf 9积分/C币 立即下载
    1/7
    论文研究-结合词性分析与串频统计的词语提取方法.pdf第1页
    论文研究-结合词性分析与串频统计的词语提取方法.pdf第2页

    试读结束, 可继续读1页

    9积分/C币 立即下载 >