论文研究-XML文档语义检索方法研究.pdf

所需积分/C币:9 2019-09-07 02:48:53 551KB .PDF
13
收藏 收藏
举报

最大熵模型能够充分利用上下文,灵活取用多个特征。使用最大熵模型进行哈萨克语的词性标注,根据哈语的粘着性、形态丰富等特点设计特征模板,并加入了向后依赖词性的特征模板。对模型进行了改进,在解码中取概率最大的前n个词性分别加入下一个词的特征向量中,以此类推直至句子结束,最终选出一条概率最优的词性标注序列。实验结果表明,特征模板的选择是正确的,改进模型的准确率达到了96.8%。
128 013,49(1) Computer Engineering and Applications计算机工程与应用 表2复合特征模板 亍5的特征,建立特征集。将特征结果组织好后送到最大 序号 模板 熵工具包进行训练,本文中选择IS算法进行参数估计。 w(-1) stem(U 训练语 特征套用特候选‖特征 stem(-1),w(0) 料库 提取/征板特在一连存让装 stem(-1), stem(0) 用最大熵包下具包进行参数佔计 ),w(0) pos(-1). stem(0) 7 w(-1),w(0),w(1) 权值」”权值字 w(-1),stem(0),w(1) 图1训练模块数据流图 stem(-1), stem(0), w(1) 4.2标注模块 pos(-1),w(0),w(1) 首先进行识别之前的预处理工作,将语料组织成符合 pos(-1),stem(0),w(1) 识别模块接口标准的形式。输入文件是经过词干提取之 后的语料,语料中包括词、词干、词缀等信息。为了能提高 stem(0)w(1) 模型的标注准确率,在语料中加入了部分词的词性信息: stem(o), stem(1) 1)根据电子词典能唯一确定词性的,标注其词性并 11 添加一个标签记为wr=0。 18 os((),stem(1) (2)不能确定其唯一词性,但是可以获得所有可能词 性的,将这些词性一起标注,使用#号分隔不同的词性,并 提取一个数量庞大的特征集合,然而并所有特征都适合添加标签war=1 引入到最大熵模型中,因此,需要进行特征选择,通常选择 (3)其余的词添加标答wr=2 下面两种办法。 标注模块的主要任务就是给定一个需要词性标注的 (1)基于频数阙值的特征选择:只保留那些频数大于句了W=(y,n,…,),找到一个与此对应的词性序列7 等于一定劂值k的特征。基于频数阙值的特征选择认为不(,t2…,,使得r= arg max A(mm)。 常出现的特征是噪声或不相关的,只有那些出现频数大于 κ的特征才真正代表了数据的特性,可以选作特征。阈值k 本文的算法如下: 的选定与仼务和数楉相关,可以通过实验来确定。多数研 步骤1读入一个句子,从左向右依次标注每个哈语单 究者通常取5,在3到20之间都可以找到较好的國值。 词w,根据特征模板实例化其上.下文特征向量x 2)增量式特征选择:使用增量法来选择区分度最髙 步骤2使用训练阶段得到的模型计算得到x的每个 的特征作为特征集。增量式特征选择以特征信息的增益特征取值的概率P(xx选取概率最大的前n项作为候选 来判断是否引入该特征,通过计算每一个要加入特征的增词性(这旦取n等于3)。局部最优算法在这一步只是选择 益,再从中选取增益最大的一个,并且重新计算加入该特概率最大的一个词性,因此它也就没有下面的步骤3,选择 征的最大熵分布,重复该步骤直到增益不显著为止 个概率最大的词性标准序列。因为基于局部最优算法 文献[将方法(1)和方法(2)进行了比较:当k值选取得出的只有一条标准序列 适当时,两种方法性能上差别不大,均有相同的召回率和 步骤3依次将这n个词性加入下一个词的上下文特 准确率,但在训练时间上,第一种方法较为简单,训练时间征向量,以此类推直至句子结束。最终选出一条使 相对较短,优于第二种方法。本文采用第一种方法进行特PH)取值最大的词性标注序列 征选取,经过反复实验,将特征频数的阙值定为5,表示只 使用特征频数大于5的特征。考虑到哈语的特殊性,如有5实验结果与分析 的词是合成词,有的词没有词缀(如:词根)等,需在进行特51实验数据 征提取时将上下文中含有空值的特征去掉。 本文实验数据来自本实验室的现代哈萨克语综合语 料库,它的内容来自于2008年《新疆日报》哈语版,题材涉 4系统设计 及政治、经济、体育、卫生、文化、艺术、娱乐等。目前该语 基于最大熵模型的哈萨克语词性标注系统,核心的是料库已完成词干切分、词缀的提取,以及部分的词性标 训练模块和标注模块 注。本文采用2008年1月份的已完成人工词性标注和校 41训练模块 对后的语料进行实验,包含646篇文章共31695条语句,图2 图1是训练模块的数据流图。图中的候选特征是通过给出了一个语料的样例。在31天的语料中1-28号的语料 特征模板从语料库中进行的抽取;在候选特征的基础上通作为训练语料,其余作为开放测试语料,并其在测试时从 过基于频数阈值的特征选择,只保留那些出现频数大于等训练集中随机抽取3大的语料作为封测语料。其中pos 桑海岩,古丽拉·阿东别克,牛宁宁:基于最大熵的哈萨克语词性标注模型 2013,49(11)129 表示单词的词性,stem表示单词的词干,aiⅸ表示单词的征:使用本文中的标注方法后准确率相比局部最优的最 附加成分,ⅴar为词类标记符号(var为0时表示电了词典中大熵也有提高,本文的方法中考虑到了词性标注序列的整 词性唯一;var为l时表示兼类词;var为2时苌示人工修改体最优,当然这增加了时间复杂度,但是这里可以设置取 的词性 每个词的最优前n个词性,既照顾了整体的最优,又不会过 多地增加模型的时间、空间复杂度。 p=psh:w了e!》 53错误分析 国新}x 由实验数据可以看出准确率仍有很大的提升空间,经 过dp:出留冒四 分析标注错误主要来自以下几个方面 s油吧e料 (1)词法分析中的镨误产生的积累,即词干提取、词缀 中rt认 SArcoID 的切分错误在词性标注中的影响。因为词干、词缀作为模 图2语料样例 型的原子特征,其中词缀或词十的错误造成了词性标注的 错误 根据本阶段语料库建设的需要和训练语料的规模,本 (2)专有名词、固定词组标注错误。习语、固定词组和 文词性主要包括一级词性。具体词性及对应的标记集见专有名词的构成不完全符合语法规则而且这些词出现次 表3。 数又极少,对其中的词标注词性时常规特征概率较大,系 表3哈萨克语一类词性标注集 统对这些词组中的词按一般词进行标注,因而出现错误 词性标记 词性 3)组合词的标注错误。未登录词在词性标注中是 名词 个难点,哈语中未登录词的一大部分是组合词,即两个或 动词 两个以上的词用下划线连接组成新的词如山-(玩 副词 形容词 笑),这些词不能很好地确定其词干、词缀等,数据稀疏加 prcp 介词 本身的特征信息乂少,此类词标注的正确率也就不高。 0n0 相声词 感叹词 代词 结束语 连词 本文使用最大熵模型进行哈萨克语的词性标注,在语 nu 数词 料预处理中对有唯一确定词性的词进行∫预先标注,增加 量词 了可以利用的上下文特征;改进了标注算法,在计算量不 助词 过多增长的同时考虑了词性序列的整体最优化,提高了词 52实验结果 性标注的准确率。实验结果表明开放测试的准确率仍然 为评估本文中方法的有效性,在相同的语料上分别做有很大的提高空间,原因在语料的预处理阶段中,词干词 了HMM及局部最优的最大熵方法的对照实验标注结果缀的自动切分正确率不是很高、专有名词等未能提前处 对比如表4所示。 理,在接下来的工作中叮以考虑从提高词干切分的准确率 预先识别专业名词等方面来提高整个系统的标注准确率。 表4标注结果准确率比较 局部最局部最优本文中的ME 标注方法HMM 优MEME(M)方法(M) 参考文献 开放测试79.788098836586.10 1]买合木提·买买提基于统计的维吾尔语诃性标注研究与实现[D] 封闭测试84.1985.759284 96.82 乌鲁木齐:新疆大学,2009 12 Ratnaparkhi A. A maximum entropy model for part-of-speech 表4屮(M)表示使用经过本文语料预处理所得的语 tagging[C]/Proceedings of the Conference on Empirical 料。这里的结果并未对最大熵模型在其他语言中词性标 Methods in Natural Language Processing, 1996: 133-141 注的结果作对比,不同的语言、不同的语料标注以及词性 [3 Zhao Yan, Wany Xiaolong. Applying class triggers in Chi 标注集的大小等都会对棋型的标注结果产生一定的影响, nese Pos tagging based on maximum entropy model[C] 因此这里仅对本实验室相同语料下的不同标注方法作了 The 3rd International Conference on Machine Learning 结果对比。由结果可以看出加入部分确定性词性后标注 and Cybernetics, Shanghai, 2004: 1641-1645 准确率有了明显的提高,这主要是因为部分词的标注过程[41达吾勒阿布都哈依尔,古丽拉阿东别克哈萨克语词法分析 中可以用到后一个词的词性特征(如果其后一个词的词性器的研究与实现门计算机工程与应用,2008,4419):146-149 是预先标注好的),这是一般最大熵模型不会用到的特 (下转165页)

...展开详情
试读 4P 论文研究-XML文档语义检索方法研究.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
关注 私信
上传资源赚钱or赚积分
最新推荐
论文研究-XML文档语义检索方法研究.pdf 9积分/C币 立即下载
1/4
论文研究-XML文档语义检索方法研究.pdf第1页

试读结束, 可继续读1页

9积分/C币 立即下载 >