没有合适的资源?快使用搜索试试~ 我知道了~
10日@实验室ltLSI矩阵分解CUDA技术gt.ppt
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 75 浏览量
2022-07-12
02:27:39
上传
评论
收藏 159KB PPT 举报
温馨提示
试读
19页
10日@实验室ltLSI矩阵分解CUDA技术gt.ppt
资源推荐
资源详情
资源评论
LSI (Latent Semantic Indexing)隐语义索引
• 设Doc1,Doc2,Doc3是三个文件.一些术语在这三个文件中的出现情况如下表
:
Doc1Doc2Doc3
-------------------------------------------------------
access X
document X
retrieval XX
informationX*X*
theoryX
database X
indexing X
computerX*X*
-------------------------------------------------------
这里,假定用"information"和"computer"作为主题词进行检索,那么Doc2和
Doc3与之精确匹配,因而中选.然而,Doc2是用户并不想要的文件,Doc1才是
想要的查不出来.
问题:由于一词多义,基于精确匹配的检索算法会报告许多用户不
要的东西;由于一义多词,基于精确匹配的检索算法又会遗漏许多用
户想要的东西。
3
继续1
• 首先,以术语(terms)为行,文件(documents)为列做一个大矩阵(matrix).设一共有t
行d列,矩阵名为X.矩阵的元素为术语在文件中的出现频度.
• 数学上可以证明:X可以分解为三个矩阵T0,S0,D0'(D0的转置)的积.其中T0和D0
的列向量都是正交归一化的,S0是对角矩阵.T0是t*m矩阵,S0是m*m矩阵,D0是
d*m矩阵,m是X的秩.这种分解叫做单值分解(singlarvaluedecomposition,简称
SVD).
X=T0*S0*D0'
一般要求T0,S0,D0都是满秩的.不难做到把S0的元素沿对角线从大到小排列.
现在,把S0的m个对角元素的前k个保留,后m-k个置0,我们可以得到一个新的近似
的
分解:
Xhat=T*S*D'
• Xhat在最小二乘意义(?)下是X的最佳近似!这样,我们实际上有了一个"降维"的途
径
4
继续2(?)
1. 做“正向”乘法:
Xhat * Xhat’ = T * S * D’ * D * S * T’ = T * S^2 * T’
(D’ * D = I, 因为D已经是正交归一的). 它的第i行第j列表明了术语i和j的相似程
度.
2. 做“逆向”乘法:
Xhat’ * Xhat = D * S * T’ * T * S * D’ = D * S^2 * D’
(T’ * T = I, 因为T已经是正交归一的). 它的第i行第j列表明了文件i和j的相似程
度.
3. 比较一个文件和一个术语
恰巧就是Xhat本身. 它的第i行第j列表明了术语i和文件j的相关联程度.
Application:
可以把主题词的集合认为是一个虚拟的文件.查询的任务说白了是
把这个虚拟的文件和其他文件做相似性比较,挑选最相似的出来(挑
选到什么程度打住,要看实际问题的要求)
5
剩余18页未读,继续阅读
资源评论
潮起潮落175
- 粉丝: 11
- 资源: 36万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功