摘要
摘要
随着网络技术的迅速发展和互联网规模的不断扩大,互联网已经成为了全
球最大、最广泛使用的信息库,如何有效检索这些海量信息成为当前重要的研
究课题,因而信息检索(Info彻ation
Retric、,al,IR)技术越来越受到人们的重视。
信息检索是指从大量的文档集合中查找到与给定的查询(que啪相关的信息子集,
是处理海量文本信息的重要手段。本文主要研究基于大规模文本数据的信息检
索算法。
在目前绝大多数的信息检索系统中,其检索出来的信息(如文档等)都以
排序的方式返回给用户,因此,信息检索模型研究的核心问题也就归结为如何
高效地为信息进行排序。目前,利用监督学习的方法构造排序模型是信息检索
领域中对排序方法研究的热点。基于人工标注的数据,排序学习算法构造出排
序模型并且将其用于预测新的未标注数据。排序支持向量机是基于监督学习的
排序算法中的代表,其将排序的问题转换成在有序对空间上的分类问题,然后
用支持向量机(Support
Vector
Macllines,sVM)模型求解。
在实际的信息检索的应用中,我们发现位于序列顶部的信息要比位于序列
中间或者尾部的信息更加重要,受到用户更多的关注。例如在文档检索中,用
户通常只是阅读位于序列顶部的文档。因此,在基于有序对的排序支持向量机
的算法中,与序列顶部有关的有序对对排序性能的影响比其他有序对更大。然
而,传统的排序算法如排序支持向量机并没有考虑到上述因素,它在训练的过
程中平均地利用了所有生成的有序对。在本文的研究工作中,我们把代价敏感
的学习方法融入到排序支持向量机的学习算法中,提出了代价敏感排序学习算
法,对传统的排序支持向量机做出了改进,显著的提高了排序性能。实验证明,
与排序支持向量机相比,本文所提出的代价敏感排序学习算法能够降低发生在
序列顶部的错误,提高了排序性能。
本文针对于信息检索中的排序学习问题,提出把代价敏感学习方法融入到
排序支持向量机中去,在损失函数的构造、优化以及算法应用等方面开展研究。
在系统的分析研究了信息检索的实际需求和排序支持向量机算法的基础
上,本文创造性的将代价敏感的学习方法融入到排序支持向量机中,提出了代
评论3
最新资源