论文研究-XML文档语义检索方法研究.pdf


-
最大熵模型能够充分利用上下文,灵活取用多个特征。使用最大熵模型进行哈萨克语的词性标注,根据哈语的粘着性、形态丰富等特点设计特征模板,并加入了向后依赖词性的特征模板。对模型进行了改进,在解码中取概率最大的前n个词性分别加入下一个词的特征向量中,以此类推直至句子结束,最终选出一条概率最优的词性标注序列。实验结果表明,特征模板的选择是正确的,改进模型的准确率达到了96.8%。
128 013,49(1) Computer Engineering and Applications计算机工程与应用 表2复合特征模板 亍5的特征,建立特征集。将特征结果组织好后送到最大 序号 模板 熵工具包进行训练,本文中选择IS算法进行参数估计。 w(-1) stem(U 训练语 特征套用特候选‖特征 stem(-1),w(0) 料库 提取/征板特在一连存让装 stem(-1), stem(0) 用最大熵包下具包进行参数佔计 ),w(0) pos(-1). stem(0) 7 w(-1),w(0),w(1) 权值」”权值字 w(-1),stem(0),w(1) 图1训练模块数据流图 stem(-1), stem(0), w(1) 4.2标注模块 pos(-1),w(0),w(1) 首先进行识别之前的预处理工作,将语料组织成符合 pos(-1),stem(0),w(1) 识别模块接口标准的形式。输入文件是经过词干提取之 后的语料,语料中包括词、词干、词缀等信息。为了能提高 stem(0)w(1) 模型的标注准确率,在语料中加入了部分词的词性信息: stem(o), stem(1) 1)根据电子词典能唯一确定词性的,标注其词性并 11 添加一个标签记为wr=0。 18 os((),stem(1) (2)不能确定其唯一词性,但是可以获得所有可能词 性的,将这些词性一起标注,使用#号分隔不同的词性,并 提取一个数量庞大的特征集合,然而并所有特征都适合添加标签war=1 引入到最大熵模型中,因此,需要进行特征选择,通常选择 (3)其余的词添加标答wr=2 下面两种办法。 标注模块的主要任务就是给定一个需要词性标注的 (1)基于频数阙值的特征选择:只保留那些频数大于句了W=(y,n,…,),找到一个与此对应的词性序列7 等于一定劂值k的特征。基于频数阙值的特征选择认为不(,t2…,,使得r= arg max A(mm)。 常出现的特征是噪声或不相关的,只有那些出现频数大于 κ的特征才真正代表了数据的特性,可以选作特征。阈值k 本文的算法如下: 的选定与仼务和数楉相关,可以通过实验来确定。多数研 步骤1读入一个句子,从左向右依次标注每个哈语单 究者通常取5,在3到20之间都可以找到较好的國值。 词w,根据特征模板实例化其上.下文特征向量x 2)增量式特征选择:使用增量法来选择区分度最髙 步骤2使用训练阶段得到的模型计算得到x的每个 的特征作为特征集。增量式特征选择以特征信息的增益特征取值的概率P(xx选取概率最大的前n项作为候选 来判断是否引入该特征,通过计算每一个要加入特征的增词性(这旦取n等于3)。局部最优算法在这一步只是选择 益,再从中选取增益最大的一个,并且重新计算加入该特概率最大的一个词性,因此它也就没有下面的步骤3,选择 征的最大熵分布,重复该步骤直到增益不显著为止 个概率最大的词性标准序列。因为基于局部最优算法 文献[将方法(1)和方法(2)进行了比较:当k值选取得出的只有一条标准序列 适当时,两种方法性能上差别不大,均有相同的召回率和 步骤3依次将这n个词性加入下一个词的上下文特 准确率,但在训练时间上,第一种方法较为简单,训练时间征向量,以此类推直至句子结束。最终选出一条使 相对较短,优于第二种方法。本文采用第一种方法进行特PH)取值最大的词性标注序列 征选取,经过反复实验,将特征频数的阙值定为5,表示只 使用特征频数大于5的特征。考虑到哈语的特殊性,如有5实验结果与分析 的词是合成词,有的词没有词缀(如:词根)等,需在进行特51实验数据 征提取时将上下文中含有空值的特征去掉。 本文实验数据来自本实验室的现代哈萨克语综合语 料库,它的内容来自于2008年《新疆日报》哈语版,题材涉 4系统设计 及政治、经济、体育、卫生、文化、艺术、娱乐等。目前该语 基于最大熵模型的哈萨克语词性标注系统,核心的是料库已完成词干切分、词缀的提取,以及部分的词性标 训练模块和标注模块 注。本文采用2008年1月份的已完成人工词性标注和校 41训练模块 对后的语料进行实验,包含646篇文章共31695条语句,图2 图1是训练模块的数据流图。图中的候选特征是通过给出了一个语料的样例。在31天的语料中1-28号的语料 特征模板从语料库中进行的抽取;在候选特征的基础上通作为训练语料,其余作为开放测试语料,并其在测试时从 过基于频数阈值的特征选择,只保留那些出现频数大于等训练集中随机抽取3大的语料作为封测语料。其中pos 桑海岩,古丽拉·阿东别克,牛宁宁:基于最大熵的哈萨克语词性标注模型 2013,49(11)129 表示单词的词性,stem表示单词的词干,aiⅸ表示单词的征:使用本文中的标注方法后准确率相比局部最优的最 附加成分,ⅴar为词类标记符号(var为0时表示电了词典中大熵也有提高,本文的方法中考虑到了词性标注序列的整 词性唯一;var为l时表示兼类词;var为2时苌示人工修改体最优,当然这增加了时间复杂度,但是这里可以设置取 的词性 每个词的最优前n个词性,既照顾了整体的最优,又不会过 多地增加模型的时间、空间复杂度。 p=psh:w了e!》 53错误分析 国新}x 由实验数据可以看出准确率仍有很大的提升空间,经 过dp:出留冒四 分析标注错误主要来自以下几个方面 s油吧e料 (1)词法分析中的镨误产生的积累,即词干提取、词缀 中rt认 SArcoID 的切分错误在词性标注中的影响。因为词干、词缀作为模 图2语料样例 型的原子特征,其中词缀或词十的错误造成了词性标注的 错误 根据本阶段语料库建设的需要和训练语料的规模,本 (2)专有名词、固定词组标注错误。习语、固定词组和 文词性主要包括一级词性。具体词性及对应的标记集见专有名词的构成不完全符合语法规则而且这些词出现次 表3。 数又极少,对其中的词标注词性时常规特征概率较大,系 表3哈萨克语一类词性标注集 统对这些词组中的词按一般词进行标注,因而出现错误 词性标记 词性 3)组合词的标注错误。未登录词在词性标注中是 名词 个难点,哈语中未登录词的一大部分是组合词,即两个或 动词 两个以上的词用下划线连接组成新的词如山-(玩 副词 形容词 笑),这些词不能很好地确定其词干、词缀等,数据稀疏加 prcp 介词 本身的特征信息乂少,此类词标注的正确率也就不高。 0n0 相声词 感叹词 代词 结束语 连词 本文使用最大熵模型进行哈萨克语的词性标注,在语 nu 数词 料预处理中对有唯一确定词性的词进行∫预先标注,增加 量词 了可以利用的上下文特征;改进了标注算法,在计算量不 助词 过多增长的同时考虑了词性序列的整体最优化,提高了词 52实验结果 性标注的准确率。实验结果表明开放测试的准确率仍然 为评估本文中方法的有效性,在相同的语料上分别做有很大的提高空间,原因在语料的预处理阶段中,词干词 了HMM及局部最优的最大熵方法的对照实验标注结果缀的自动切分正确率不是很高、专有名词等未能提前处 对比如表4所示。 理,在接下来的工作中叮以考虑从提高词干切分的准确率 预先识别专业名词等方面来提高整个系统的标注准确率。 表4标注结果准确率比较 局部最局部最优本文中的ME 标注方法HMM 优MEME(M)方法(M) 参考文献 开放测试79.788098836586.10 1]买合木提·买买提基于统计的维吾尔语诃性标注研究与实现[D] 封闭测试84.1985.759284 96.82 乌鲁木齐:新疆大学,2009 12 Ratnaparkhi A. A maximum entropy model for part-of-speech 表4屮(M)表示使用经过本文语料预处理所得的语 tagging[C]/Proceedings of the Conference on Empirical 料。这里的结果并未对最大熵模型在其他语言中词性标 Methods in Natural Language Processing, 1996: 133-141 注的结果作对比,不同的语言、不同的语料标注以及词性 [3 Zhao Yan, Wany Xiaolong. Applying class triggers in Chi 标注集的大小等都会对棋型的标注结果产生一定的影响, nese Pos tagging based on maximum entropy model[C] 因此这里仅对本实验室相同语料下的不同标注方法作了 The 3rd International Conference on Machine Learning 结果对比。由结果可以看出加入部分确定性词性后标注 and Cybernetics, Shanghai, 2004: 1641-1645 准确率有了明显的提高,这主要是因为部分词的标注过程[41达吾勒阿布都哈依尔,古丽拉阿东别克哈萨克语词法分析 中可以用到后一个词的词性特征(如果其后一个词的词性器的研究与实现门计算机工程与应用,2008,4419):146-149 是预先标注好的),这是一般最大熵模型不会用到的特 (下转165页)

64KB
论文研究-XML文档结构相似测度研究.pdf
2019-07-22为了满足基于Web的XML数据信息的近似搜索、信息分类以及数据交换的需求,提出一种新的有效地鉴定XML文档间结构相似度的标准。该标准包含了XML文档的结构信息和节点嵌套的语义信息,可以有效地给出XML文档间的结构相似测度。通过实验证明该标准具有高度的准确性和有效性。
577KB
论文研究-基于语义的图结构XML文档关键字检索方法 .pdf
2019-08-20基于语义的图结构XML文档关键字检索方法,崔海文,李战怀,XML数据可以表示为有向图模型,其在关键字检索方面与树结构模型的XML检索方法具有较大差异,现有的图结构数据的检索模型和相似度计
460KB
论文研究-XML文档到关系数据库映射方法的研究.pdf
2019-07-22针对现有映射方法对XML文档格式要求过严等不足,在模型映射方法基础上提出一种XML文档映射关系数据库的新方法。通过给XML文档树做标志,将映射算法转换后的数据放到两张预先定义结构的表进行存储。给出了逻辑数据模型、详细设计、映射算法和实验。实验结果表明,该方法能有效地保持XML文档的结构,能够对存储的数据进行语义检索,适用于任何树型数据结构。
598KB
论文研究-XML元素级检索的反馈算法.pdf
2019-09-12协同过滤是个性化推荐系统中应用最广泛的推荐技术,现有的协同过滤算法不能反映出每年特定的事件与用户购买行为的关联性。针对这个问题,提出了一种考虑年度日程表事件的协同过滤算法,引入了时间权值函数,使得同一时期的越接近当前用户访问时间的近邻用户购买商品的推荐度越高,提高了协同过滤算法的推荐精度。
98KB
中国XML论坛--遍历XML代码(C#).htm
2011-07-06中国XML论坛--遍历XML代码(C#).htm中国XML论坛--遍历XML代码(C#).htm中国XML论坛--遍历XML代码(C#).htm中国XML论坛--遍历XML代码(C#).htm中国XML论坛--遍历XML代码(C#).htm中国XML论坛--遍历XML代码(C#).htm中国XML论坛--遍历XML代码(C#).htm中国XML论坛--遍历XML代码(C#).htm中国XML论坛--遍历XML代码(C#).htm中国XML论坛--遍历XML代码(C#).htm中国XML论坛--遍历XML代码(C#).htm中国XML论坛--遍历XML代码(C#).htm
78KB
jackson-dataformat-xml-2.1.2.jar
2014-10-24jackson-dataformat-xml-2.1.2.jar Jackson可以轻松的将Java对象转换成json对象和xml文档,同样也可以将json、xml转换成Java对象。 相比json-lib框架,Jackson所依赖的jar包较少,简单易用并且性能也要相对高些。而且Jackson社区相对比较活跃,更新速度也比较快。
155KB
论文研究-XML文档更新的有效性问题研究.pdf
2019-07-22XML作为Web上用于表示和传递数据的主要技术之一正在受到越来越广泛的关注,在介绍了XML文档更新的相关内容后,详细分析了XML文档更新中存在的问题,将其归结为一致性问题和先验性问题,并给出相应的解决方案和具体实现。
9.11MB
aspose-words-15.8.0-jdk16.jar 带license.xml
2020-11-05aspose-words-15.8.0-jdk16.jar是Aspose对Word文档转换PDF所用的Jar包;aspose-words-15.8.0-jdk16.jar是Aspose对Word文档转换PDF所用的Jar包
9.0MB
aspose-words-15.8.0-jdk16.jar以及license.xml文件
2019-04-19aspose-words-15.8.0-jdk16.jar以及license.xml文件,主要用于操作word转换图片,pdf,html等。
92KB
jackson-dataformat-xml-2.7.4.jar
2018-04-13Jackson可以轻松的将Java对象转换成json对象和xml文档,同样也可以将json、xml转换成Java对象。 相比json-lib框架,Jackson所依赖的jar包较少,简单易用并且性能也要相对高些。而且Jackson社区相对比较活跃,更新速度也比较快。
521KB
论文研究-多级安全XML文档删除操作安全策略研究.pdf
2019-09-07XML应用的不断扩展带来了XML安全的需求。目前关于XML安全性的研究主要集中于自主访问控制、基于角色的访问控制和视图技术,而对于强制访问控制很少有研究。对多级安全XML文档的元素删除操作进行了研究。由于在结构完整性约束和实体完整性约束下,低安全等级用户的元素删除操作可能导致高安全等级数据失去可用性或者产生信息隐通道,为此提出了一个滞后删除策略,并描述了该策略的完整性性质及实现。
232KB
XML-Parser-2.41.tar.gz
2014-03-28XML-Parser-2.41.tar.gz是飞鸽工具安装过程中依赖的项。
221KB
论文研究-基于XML的搜索系统研究 .pdf
2019-08-27基于XML的搜索系统研究,肖卓磊,周云耀,当今,互联网已成为人类有史以来资源最多、品种最全、规模最大的信息库。作为网上最主要的信息检索工具,搜索引擎发挥着非常重要
6.36MB
Xerces-J-tools.2.11.0-xml-schema-1.1-beta.zip下载
2017-12-17Xerces-J-tools.2.11.0-xml-schema-1.1-beta.zip为apache开源xml相关,可用于xml解析 Xerces是由Apache组织所推动的一项XML文档解析开源项目,它目前有多种语言版本包括JAVA、C++、PERL、COM等。[1] Xerces是一个开放源代码的XML语法分析器。从JDK1.5以后,Xerces就成了JDK的XML默认实现 Xerces-C++ 的前身是 IBM 的 XML4C 项目。XML4C 和 XML4J 是两个并列的项目,而 XML4J 是 Xerces-J——Java 实现——的前身。IBM 将这两个项目的源代码让与 Apache 软件基金会(Apache Software Foundation),他们将其分别改名为 Xerces-C++ 和 Xerces-J。注:“Xerces-C”和“Xerces-C++”是同一个东西。
184KB
论文研究-Web服务语义标注研究 .pdf
2019-08-14Web服务语义标注研究,张发圣,,传统的Web服务的描述标准采用基于XML的WSDL语言,由于能够方便的描述Web服务的调用接口而得到广泛的应用;但是,WSDL语言着重描述的是W
722KB
论文研究-XML文本自动文摘研究综述.pdf
2019-07-22介绍了XML文本自动摘要的研究现状,对现存的XML文本自动文摘技术进行了分析和评估,论述了目前该研究方向上尚未解决的一些问题和未来的发展趋势。
462KB
论文研究-XML数据索引技术发展概述 .pdf
2019-08-20XML数据索引技术发展概述,刘景超,刘先锋,本文深入地讨论了目前XML索引技术的研究现状,对XML索引技术进行了分类,包括基于路径节点记录的XML索引技术、基于结构摘要的XML索引
471KB
论文研究-Excel 2007文档信息隐藏方法.pdf
2019-09-13Excel 2007文档采用了一种新的默认文件格式,即Excel XML格式,这种新的格式为在Excel文档中隐藏信息提供了新的思路。结合Excel 2007的自身特点和XML规范,提出了一种基于无用属性的Excel 2007文档信息隐藏方法。该方法首先将待隐藏的信息加密后转换为十六进制的Unicode码,然后通过算法选择可用于隐藏信息的XML部件,并创建无用属性,最后将转换后的字符串作为无用属性的属性值写入,从而达到信息隐藏的目的。实验表明,该方法的容量较大,隐蔽性好,可用于隐秘通信。
-
下载
ecplise远程连接hadoop--hdfs java api操作文件.pdf
ecplise远程连接hadoop--hdfs java api操作文件.pdf
-
下载
C语言习题:顺序、选择、循环.doc
C语言习题:顺序、选择、循环.doc
-
下载
天下秀:天下秀数字科技(集团)股份有限公司2020年年度报告.PDF
天下秀:天下秀数字科技(集团)股份有限公司2020年年度报告.PDF
-
下载
文峰股份:文峰股份2020年年度报告.PDF
文峰股份:文峰股份2020年年度报告.PDF
-
下载
DBUtil.java
DBUtil.java
-
下载
Kafka代码demo.zip
Kafka代码demo.zip
-
下载
shader渐变特效.rar
shader渐变特效.rar
-
下载
ThunderSpeed1.0.35.366完结珍藏版.rar
ThunderSpeed1.0.35.366完结珍藏版.rar
-
下载
12 gd32 资料:gd32e230xx_datasheet_rev1.4.pdf
12 gd32 资料:gd32e230xx_datasheet_rev1.4.pdf
-
下载
Optical Shop Testing.iso 光盘文件
Optical Shop Testing.iso 光盘文件
