没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
1
在基本 IR 模型之上的一些技术
2005 年 10 月 28 日
(参考 Jaime Carbonell 教授讲稿)
2
本节内容提要
•
VSM 回顾
•
查询扩展( query expansion )
•
Generalized Vector Space Model (GVSM)
•
最大边界相关法( Maximal Marginal
Relevance )
•
Summarization as Passage Retrieval (基于
片段提取的文献综述)
3
VSM ( vector space model )
•
我们有了
–
“ 共有词汇”假设(∑):“文档”和“查询”等价
于它们含有的词汇集合,它们的相关性可以
完全由共有词汇的情况来决定
–
向量空间模型(刻画“情况”的一种具体方
式)
•
最简单的:二元向量,只是刻画一个词项的出现
与否
•
稍复杂些:计数向量,刻画一个词项在文档(查
询)出现的次数
•
一般的:我们可以考虑“以文档集合为背景,一
个词项在一篇文档中的
权重
权重”
4
变化在于词项加权的方法
•
TF ,词频(局部),规格化( /max_TF )
•
DF ,文档频率(全局),也规格化( /|D
| )
•
IDF = 1/IDF
•
TFIDF = f
1
(TF)*f
2
(IDF)
•
特别地,多数情况下人们愿意用 f
2
=log
2
,
(一种“抑制函数”)
5
TFIDF 的(启发式)含义
•
一个词项在一篇文档中的“重要性”
–
和它在该文档中出现的次数成正比(局部)
–
和它在文档集合中涉及文档的个数成反比(全局)
•
重要性设计的目的:区别两个文档对同一个查
询的相关程度
–
共有词(频)越多,则相关程度应该越高(同一性
强)
–
如果一个共有词在文档集合中出现得很普遍,则由
它反映的相关程度应该越低(区分性差)
•
(但反过来的作用也不应太过分,于是需要“抑制”)
剩余30页未读,继续阅读
资源评论
- toni2721687772012-11-11还不错 不过貌似有免费的~
- e111eva2012-04-12既详细又全面,很好,如果能用代码将其实现的话就完美了、、、
rockychan1206
- 粉丝: 0
- 资源: 32
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功