1
附件 5:
本科生毕业论文(设计)外文资料译文
论文题目: Web 中图像的检索技术研究 .
学生姓名: 童宏梁 年级(学号): 9906528 .
二级学院: 信息工程学院 专业: 电子信息工程 .
指导教师: 张 量 职称: 副教授 .
填表日期: 2004 年 2 月 25 日
杭 州 师 范 学 院 教 务 处 制
2
外文资料翻译(不少于 4000 外文印刷字符)
译文一:
1.所译外文资料:
①作者:James AlIan
②书名(或论文题目):Incremental Relevance Feedback for Information
Filtering
③出 版 社(或刊物名称): Center for Intelligent Information Retrieval
④出版时间(或刊号):1996 ISBN:0-89791-792-8
⑤所译页码: 270--277
增加信息的关联反馈过滤
摘要:
我们从实验到 TREC 的数据都一直都在探索,究竟该怎么做关联反馈才能被更好的利用呢。我们也
从过去所有的资料里得到证明,没有好的搜索关联反馈就不能得到高质量的结果。
1. 简介:
关联反馈技术是自动把一个疑问号改正成更准确方法,反映出那些用户兴趣:由兴趣疑问搜索进而
反馈给系统来提高搜索力度。对反馈感兴趣的研究人员,通常使用 TREC 来收集任务,由一些质问和相
关的资料收集组成,从资料的开始被利用——反馈测试——结果出现和投入使用。
我们是在那两种想法的结合过程中,发现信息的关联反馈过滤的好处并处理出现的新问题:
1.当关联性判断出现,标准的反馈技术起作用时时起作用,我们就能取得更好的反馈结果,从而使
检索效果更好。
2.为了保持那种"高级品质"并设法降低空间要求,对我们将来的检索事业有着重要的意义。
3.关联反馈技术能对付"质问漂流",这将给我们的检索省下不少的时间。
当调查那些问题中的任何一个时,当判断被一次而不是马上提出时,我们集中于关联反馈,一个过
程我们叫增加的反馈。当全部判断同时被使用时,反馈的连续应用将增长集中于取得好的质问中。
虽然铺设任务的关联反馈和 TREC 已经被广泛地研究,只有很少的工作高于增加的反馈在一种过滤
的环境过程中处理那些问题。
2.增加的反馈是什么
在信息里到达的信息的数量可能随时变化,但却能随时取回系统监视器的资料,取回问题的这个部
分由各种各样的研究团体和商业部门经营。
当资料已经被选择时,用户读它们并且有机会标明他们相关与否。 这些判断与产生一个新质问的
质问相结合。新质问用于监控进来的资料的流动。这个循环继续,直到质问不再被需要。
在表面上,在这个过程里的反馈看起来是明显的关联反馈。 但是, 与在其他底座里不同的是,更
老的关联性判断必须被保留, 新近的资料便朝着以不平常信息的那些反馈方向走。 这种形势在交互式
形势里出现, 一个过滤的质问的存在时间表明,不可能给过去的全部档案进行关联性判断,因为存储
空间有限。
2.1 增加模拟的反馈
增加反馈在过滤上下文的信息内的进行完整评估,要求广大用户研究预订模拟资料的全部运行过
程。简化问题,我们忽视真实选择那儿的资料:我们对只对那些起因于那些选择判断的关联性感兴趣。
那些判断关联性被内在使用,他们象分配那些文件内列举。 因为充分的反馈运转,命令实际上不
重要。 因为增加反馈,判断一次反馈一小部分直到全部质问耗尽全部信息。那是,第一个反馈循环使
用判断前的 1/n 适合每质问,第 2 循环使用第 2 到第 n 号,等等。
3
表 1
表格 1 的统计是各种关联性判断给磁盘 1 和 2。 巨大的信息数量将需要实际的时间处理,因此我
们通过选择大约全部判断的 10/100 为我们的所有实验都选择一个随便子集合,有利于资料判断相关。
判断被从中选出来相关用 30/100 的可能发生的事件和从非相关用 5/100 的可能发生的事件。
2.2 关联反馈算法
由全部实验的全过程可知, 反馈从原先的质问开始, 也许包括来自过去反馈循环的一些信息,
和一些一套新关联性判断,和通过总计 100 个新条件产生一个新质问。 注意到原先的质问可能在每个
循环里使用。 这在用户的最初疑问,通常正常工作的的结果固定,但是将结果定为漂流质问是不适当
的。
在一份关联文件里的前 100 个结果,出现的结果被首先预订,次数在关联文件里出现。 在那排列
过程中的前 500 个条件被根据一个 Rocchio 公式重新排列:
这里(Wx)是重要的关联文件或者非关联文件。 在相关的设备里的术语(t)的重量被计算如下:
在非关联文件里的重物和在质问过程中被类似计算。 Rocchio 重量排列的前 100 个条件被增加给
质问,原先的质问条件总被包括在新质问里。
注意到这个反馈计划不是最著名的方法。 尤其是全部质问结构被忽视,没有动态的反馈最优化,
并且只增加条件。但是,这种方法更简单迅速,合理有效,和容易理解,因此它为这些实验提供一个极
好的近似值。
3 . 增加的反馈工作
当过程中的第一个问题在判断时被增长使用时,标准的反馈技术可能是成功的。但是,10/100 的
样品将在整个全套判断中散布。当这个 10/100 的样品被增长使用时怎样产生更好的效应呢?
图 1 显示当子集合的判断被更大的使用时,精密提高。2 /n,1 /n 等等。 图 1 显示效力到达基线
时,不管判断的数量一次反馈多小,粗糙训练资料的一半已经被提出。 由于判断的 10/100 被使用,平
均的精密是在基线的 10/100 内。 注意到如果没有反馈,效果将是 43/100,如此相对很少的资料导致
相当可观的改进。 实际上, 关联性判断的 10/100 实际上是确定的全部的判断的 1/100,意思是,那
非常高的效力被一小书写体全套的取样获得!并且长期的质问反馈,知道合理的安排可能的增加的反馈
工作,并且它非常迅速取得"高级品质"。
4 . 归档判断
当判断的数量增长时,以前的部分显示那个,取回的质量改进 。但是在那些情况里,全部过去判
断都也可得到。 存储空间不可提供不实际的全部资料。
4.1 保留最高资料
针对这个实验, 在每个循环,n 相关和 n 非关联文件的(共 2 n) 几乎总被人忘记。n 的选择
有两种方式:
4
图 1
1 . 使用先进先出时刻表,资料因此那些最近看见的相关的 n 越过多循环积累,或许被保留。
2 . 在保持 n"不同"关联文件时。 全部资料只要有多于资料,那些最相似对的那些最旧的资料被
丢掉。
3.那些判断被一次提出 1/16。
一个损失 2/100 ——3/100 可能只是归档关联性判断的 10/100。 但是, 我们的空间去非常有
限。
4.2 保留顶概念
我们档案信息,统计是不可能"预集"从上下文那里一个反馈循环开始的时候。 因为只一个术语的
子集合被储存在上下文里,全部其他条件的统计将是不精密的,他们将以更少的关联性判断为基础。
现在怎样确定条件,我们尝试 3 条不同通路:
1 . 以包含称呼的关联文件的总数的职位。
2 . 通过在那些关联文件里的时期的事件的总数的职位。
3. 表格显示的差别效力不大,比好选择条件以为基础既确信又负的信息。
很清楚, 与储存整个判断的资料相比较,归档时期信息较少可变性,但是存储空间非常小和非常
可预测。
5 . 质问漂流
如果一个请求时间足够, 这个目标的那些质问可能改变:特别分题的那些质问的结果更将更有归
根结底的可能, 或者一个含糊有关的题目可以引起一些好奇并且移动"关联性"到切线的标题。
象以前的部分里提出的那样,那些技术为处理质问漂流好像理想。 因为不完全的信息正被保留,"
过时"的反馈数据应该删掉,把更适合一个质问留给质问。
5.1 模拟的质问漂流
已经漂流的一个质问基本上是两个质问——原质问和新的质问。在实验过程中使用的一些 TREC 质
问与两个他们的陈述相似并且在确定的他们的关联文件里。 那其实是接近漂流表明一种方法。
我们考虑二个质问重叠,如果他们共同拥有几份关联文件(的数量判断非关联文件共同不被考虑)。
重叠在判断资料中大约为被判断的资料的 40/100 到一个没有的范围内。
相关和非关联文件的判断通过把他们成为 3 组: (1)资料为原先的质问只判断,(2)资料为两个质
问判断, (3)资料为新质问只判断。 虽然增长,判断仍在那项命令里使用。
5
5.2 基本的漂流
以下类型的质问和评价如表 2,如下:
1 . 新:只与他们自己判断关联性一起修改新质问。 这应该是可能的最好的性能, 不但结果是:
那些统计效应注意到更显著的是这里因为只是那些最高的 1000 个条件被救,到那时那些增加判决被使
用(在里新增加)。
2 . 新增加:同一事物作为新但是有那些判断关联性增长反馈,1/16 一次,保持上下文的 1000 句
话。 这是大多数运行的基线,最好任何漂流的质问能期望增长做。
3 . 漂流:判断一次反馈 1/16,那些原先质问与那些混合关联性一起修改,保持上下文的 1000 个
条件。 反馈的最后的循环应该导致接近新质问的质问。
4 . 新漂流:运转的这非常类似于运转的漂流, 做补偿是的一部分增加反馈的原先质问接近使
用。
5.原先:那些原先质问与他们的自己判断(不增长)关联性那里一起修改,然而评价好象他们那些新
质问岁。
5.4 种漂流物和滑过
每当上下文被从一个更早期的循环恢复时,降低全部统计的一小部分。 如果一个时期继续在判断
的资料里出现,它的统计将提高。
6 . 结论
关联反馈是对数据库改进质问的效力的一种极好的技术。 我们已经证明反馈可能是增长申请取得
相似的效力 ——假若一些上下文被保持在反馈循环之间。
在那里这对档案许多资料或者大量统计信息不可行时, 如果少量过去判断被保持,增加的反馈工
作的性能将有更好的改进。
7.参考资料