论文研究-维吾尔文后缀树构造算法的设计与实现.pdf

所需积分/C币:5 2019-09-08 17:50:14 445KB .PDF
收藏 收藏
举报

为用后缀树聚类算法对维吾尔文网页进行聚类,通过分析可扩展后缀树和维吾尔文的特点设计了维吾尔文后缀树构造算法。实验结果证明该方法能够在线性的时间范围内构造维吾尔文后缀树,并用它来对维吾尔文网页进行聚类。
买买提依明·哈斯木,吾守尔·斯拉木,维尼拉·木沙江:维吾尔文后缀树构造算法的设计与实现 2013,49(8 前缀。这种情况下按上述介绍的不相同宇符开始时的方理器、2GB内存,操作系统为 Windows7的PC机上进行 法来处理。 的。微软的 Windows7操作系统已经全面支持维吾尔 ② Nodclablc与 suffix有相同的词序列组成的公共前语。开发语言是 MicrosoftⅤ isual studio2008。本文设计 缀( same prefix),各自还有不相同后缀。这种情况如图2的系统由搜索结果获取模块、处理模块、后缀树构遣模块 所示来处理。Sui中的公共前缀后面的部分( Remain和聚类模块等四个子系统组成。研究维吾尔文后缀树的 parts of suffix),递归调用后缀树构造函数插入到以当前目的是用它来对搜索引擎返回的维吾尔文网页集进行聚 child节点为根节点的子后缀树中 类。对于中英文文本聚类研究,国内外已经有开放、标准 suFFIX Tree node 的文本聚类语料库,可以在共同的文本集上比较不同特征 Same 表示和聚类方法的性能。但是对维吾尔文文本聚类而言, parts parts 目前还没有开放、标准的文本聚类语料库。本系统获取搜 Remain 索结果的方法是Goog提供的 Google Wcb Scarch API Remain R parts of parts of 来实现,使用它设计搜索结果获取子系统,输入维吾尔文 suffix lable lable 查询短语,获取 google返闻的搜索结果,包括 snippet,te, URL等 孩子节孩子节孩子节孩子节孩子节孩子节 首先对获得搜索结果中的网页标题和摘要进行预处 点(n) 点(2)点(n) 理,即把它们转换成UTF-8编码格式,对网页标题和摘要 图2 Nodelable与 suffix有相同的前缀 中的标点符号数字、非维吾尔语字符以及停用词进行过 ③ Nodelable与suix有相同的词序列组成的公共前缀 滤,识别出一个个维吾尔文单词,建立了原始特征项集 同时 Nodelable包含sui。这种情况如图3所示来处理。 合。然后用新疆大学多语种重点实验室开发的“维吾尔文 词干提取和词性标注”工具对原始特征项集合进行词干提 suffix 取和诃性标注,选择语义信息比较丰富的名词和动词作为 特征 Remain suffix R 特征提取后构造的维吾尔文可扩展后缀树如图5所 parts o 示。构造后缀树时三组搜索结果得到的数据如表1所示。 lable 理论上可扩展后缀的第一层的节点总数等于构造该后缀 树的文本集中不同词的总数。通过分析表中的数据,第 孩子节孩子节孩子节孩子节孩子节孩子节 层节点总数等于搜索结果中不同词的总数,证明本文构 点(1)点(2) n)点(1)点(2)点(n) 造的后缀树完全符合要求。从它的运行时间看,它在很快 图3 Nodelable包含 suffix 的时间内构造后缀树。利用维吾尔文可扩展后缀树对维 ④ Nodelable与sufx有相同的词序列组成的公共前吾尔文网页进行聚类后得到的结果如图6所示(表中的时 缀,同时si包含 Nodelable。这种情况如图4所示来处间是用C提供的函数来计算的) 理。lble中的公共前缀后面的部分( Remain parts of lable),递归调用后缀树构造函数插入到以当前 child节点 为根节点的子后级树中。 unfix 'Tree node lable Remain parts of suffIX 孩子节孩子节‖孩f节孩子节孩子节 Remain parts孩子节 点(1)点(2)点(n)点(1)点(2)sx点(n 图5构造后的可扩展后缀树 图4sufi包含 Nodelable 表1后缀树性能数据表 Nodelable与 suffix相等。把 suffix的有关信息写入 检索结果数句子数词总数第一层节点数构造时间ms 到当前的节点的 IndexAndFrequency中 46 622 342 5 1505 1505 4实验与分析 l11 516 377 377 412 实验是在配置为 Pentium dual- core cpu3.00GHz处 (下转16页)

...展开详情
试读 3P 论文研究-维吾尔文后缀树构造算法的设计与实现.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    weixin_38743506 如果觉得有用,不妨留言支持一下
    2019-09-08
    • 至尊王者

      成功上传501个资源即可获取
    关注 私信 TA的资源
    上传资源赚积分,得勋章
    最新推荐
    论文研究-维吾尔文后缀树构造算法的设计与实现.pdf 5积分/C币 立即下载
    1/3
    论文研究-维吾尔文后缀树构造算法的设计与实现.pdf第1页

    试读已结束,剩余2页未读...

    5积分/C币 立即下载 >