收 稿日期 : 2006-07-28; 修 返日期 : 2006-10-12 基 金项 目: 国 家自 然科学 基金 资助项 目( 60473078)
作 者简 介: 李 永 ( 1982- ) , 男 , 湖 南 汨 罗 人, 硕 士 研 究 生, 主 要 研 究 方 向 为 个 性 化 服 务 和 虚 拟 研 究 环 境 ( liyongjie1982@ gmail. com) ; 徐 德 智
( 1963-) , 男 , 湖南湘 潭人 , 教 授, 主要研 究方 向为 Web 数 据处 理、XML、个性化 服务 ; 张 勇( 1973- ) , 男 , 河 南商丘 人, 副 研 究员 , 主要 研 究方 向 为数 据
库、e-science 和地 理信息 系统 ; 邢 春晓( 1968- ) , 男 , 河南南 阳人, 研 究员, 主要 研究 方向为 数字 图书馆 、电 子政 务、数字娱 乐、个性 化服务 .
VRE 中 基 于 内 容 过 滤 的 论 文 推 荐 算 法
*
李 永
1
, 徐德智
1
, 张 勇
2
, 邢春晓
2
( 1. 中 南大 学 信息 科学 与工 程学 院, 长 沙 410083; 2. 清华大 学 信息 技术 研究 院, 北 京 100084)
摘 要: 针 对虚 拟研 究环 境中 的重 要资 源论 文, 提出 了基 于 内容 过 滤 的 推 荐 算 法, 即 根 据 研 究 者兴 趣 实 现 个 性
化服 务, 推荐 所需 论文 。该算 法采 用矢 量空 间模 型作 为用 户 兴趣 和 资 源 描 述 模 型, 使 用 余 弦 相 似度 计 算 资 源 推
荐度 ; 基 于效 率考 虑, 利用 朴素 贝叶 斯分 类算 法减小 搜索 空间 。实 验表 明, 推荐 效果 和效 率得 到了明 显改 善。
关键 词: 虚 拟研 究环 境; 个 性化 ; 矢量 空间 模型 ; 余弦 相似 度; 朴 素贝 叶斯
中图 分类 号: TP393 文 献标 志码: A 文 章编 号: 1001-3695( 2007) 09-0058-03
Content-based paper recommending algorithm in VRE
LI Yong
1
, XU De-zhi
1
, ZHANG Yong
2
, XING Chun-xiao
2
( 1. School of Information Science & Engineering, Central South University, Changsha 410083, China; 2. Research Institute of Information Tech-
nology, Tsinghua University, Beijing 100084, China)
Abstract: This paper proposed a content-based recommending algorithm to recommend papers in VRE for researchers. The
algorithm utilized VSM ( vector space model) to represent users’interests and resources, calculated recommended degree by
cosine similarity. To improve efficiency, used naive Bayes classify method to reduce the searchingspace. Experimental results
demonstrate that this approach can produce better accuracy and performance.
Key words: VRE ( virtual research environment) ; personalized services; VSM; cosine similarity; naive Bayes
随着我国国家 科技 创 新体 系 计划
[ 1]
的 实施, 科 研机 构 的
发展拥有了更多的机遇, 也遇到了严峻的挑战。未来国家创新
体系建设要着重发挥科研机构 和大学 在科技 创新与 人才培 养
方面的核心作用。因此, 如何利用计算机技术在各个科研机构
中以及科研机构 之间建 立一 个可 以更 好地 实现 研 究资 源 ( 包
括设备、材料、数据、人力等) 共享、加强 研究人 员的科 研协作、
培养科技创新人才的研究环境, 是有效促进国家科技创新体系
计划实施必须解决的重要问题。
英国的 JISC( Joint Information Systems Committee)
[ 2]
是 支
持科研和教育的一个基金组织。为了帮助科学家进行研究, 加
强科研机构之间 的合 作, JISC 提出 了虚 拟 研究 环境 ( VRE) 的
概念
[ 3]
: “VRE的概念不仅 仅是某 个研究 领域 的一 个 VRE, 而
是要定义相关的标准并建立一个通用的框架, 让其他人使用这
个框架并在上面逐渐加入具体领域的 VRE应用。”JISC支持的
众多项目中有 15 个是关于 VRE的, 如 GROWL
[ 4]
、Sakai
[ 5]
以
及文献[ 6, 7] 介绍 了 一些 建 立 VRE 使用 的 Web services、grid
和工作流等技术。我国以网络 为基础 的科学 活动环 境综合 试
验平台 CROWN
[ 8]
( China research and development environment
over wider-area network) 就是面向国 内各个 领域的 科学 家的 一
个典型虚拟研究环境。
VRE中, 随着用户 数 量不 断 增多, 研 究 资源 日益 增 长, 研
究人员查找和发现自己感兴趣的资源成为一件非常耗时、耗力
的事情, 会出现信息过载和信息 迷向问 题。因此, 需要 在 VRE
中引入个性化服务, 通过 研究不 同用户 兴趣, 主动为 用户推 荐
最需要的研究资源, 从 而更好 地解决 VRE中 资源 日益 庞大 与
用户寻找有用资源费时费力之间的矛 盾。VRE 中的 每个研 究
者都会阅读大量论文, 论 文资源 无疑是 一种重 要的研 究资源。
所以, 需要在 VRE中进行论文的推荐。
近年来, 应用到各种个性化推荐系统的推荐算法主要基于
内容过滤和协 同 过滤
[ 9~12]
。协 同 过滤 算法 的 基本 思想 是 根
据用户兴趣的相似性来推荐资源, 把与当前用户相似的其他用
户意见提供给当前用户。但是 协作过 滤依赖 于大量 用户对 大
量资源的打分数据, 而且在推荐用户没有评价的资源与新资源
方面存在局限性。VRE中允许任意数 量的用 户建立 任意大 小
规模的研究项目, 往往会出现很多新建立的项目无法获得大量
的用户打分数据。对于论文, 可以 获得其 完整的 内容描 述, 这
样更能从内容本质上推荐给用户真正感兴趣的资源。现阶段,
国内外的各种会议、期刊不 断刊登 出大量 新的论 文, 研究者 必
须要在其领域跟踪前沿技术, 而基于内容过滤同样可以推荐新
资源给用户。文献[ 13] 中提到的 图书推荐系 统也正 是使用 基
于内容过滤的推荐算法来推荐图书。因此, 基于内容过滤的推
荐算法更加适合在 VRE推荐论文资源。
1 基于内容过滤的推荐算法
1. 1 用户兴趣和论文资源的模型表达
VRE中的论文资源本质上是 一种文 档。文档的 表示模 型
中最典型的是 VSM
[ 14]
。对于 论文 资源, 直 接 用 VSM 把 每 篇
第 24 卷 第 9 期
2007 年 9 月
计 算 机 应 用 研 究
Application Research of Computers
Vol. 24 No. 9
Sept. 2007
评论0
最新资源