论文研究-基于改进的KNN个性化过滤的研究 .pdf

所需积分/C币:9 2019-08-17 04:16:37 187KB .PDF
7
收藏 收藏
举报

基于改进的KNN个性化过滤的研究,邓文韬,王国胤,本文针对接受邮件的没有规律,邮件类别数量相互之间的不均衡,提出了一种改进的KNN个性化邮件过滤方法,该方法先通过对兴趣度计算
国科技论文在线 归方程如卜 十E 其中 ,其中的意思 就是某个人的平均浏览时间,它等于对所有邮件的浏览时间的总和除以浏览邮件的个数,同 理翻贝拉动滚动条次数的计算也是如此。 设为用户最终兴趣度, +E计算的用户初步兴趣度,为用户 处理动作因子,则: 式中的取值:当执行删除邮件时,取值 当执行打印操作时取值, 当执行保存操作时取值,当执行回复邮件操作时取值 当执行上述操作之外的 操作时,取值为 可以看出,改进的方程消除了用户自己的习惯对于兴趣度的影响,并且引入了用户处理 动作,特别当有处理动作执行时,公式能更明显地反映用户心理兴趣,这与实际中所遇到的 情况也比较符合,在这一节的仿真实验中也得以证实。 实验分析 在 环境下采用 和开发工具进行仿真实验。实验数据仝部来源 于用户生活中浏览的网页个,记录用户的行为数据,包括在页面上的行为数据和用户访 问页面的平均时间长度等。 在口常浏览网页数据中,随机抽取了不同同学的各条记录作为实验数据,用上节 中的最小二乘估计法可以求得方程参数 ,得出回归方程为: 将行为数据代入方程计算出每个网页的兴趣度值。我们采用当前常用的方法:用计算 值与估计值的比值来衡量回归方程计算效果,即:2。表示平均比值, 表示第个网页的兴度比值,表示估计兴趣度值,表示计算兴趣度值,表示数据 条数。将实验数据分为组记录集,每组随机分配条数据,下面,我们用改进后的回归 方程进行测试,采用改进的回归方程计算用户兴趣度,用相同的衡量方法得出测试结果如表 所 表1回归方程测试比值对比 Tab. 1 Test ratio of regression equation contrast 测试组次数 兴趣度平均比值 动作兴趣度平均比值 收进后兴趣度半均比值 通过对比图可以看出,改进前各组平均比值大小有所差别。改进后,改进各组平均比值 比前一组都有一定提高,而且提高几乎相同,主要是我们从纵向考虑问题,而第二组的只是 横向比较,所以都有一定的提高。总的来说,在计算结果上,改进后的方程比改进前都有提 高,这正好符合客观的事实,我们剔除了用户习惯对于兴趣度计算的影响。理论和实际证明, 国科技论文在线 改进的回归方程能更好地表示出用户的兴趣,计算出的结果也更符合客观实际,是·种适合 计算用户兴趣度的新方法。 在实验中,首先从 中抽取封邯件封垃圾邮件,封非垃圾邮件作 为初始训练集,特征空间维数取,待用户处理这些邮件后,形成最初的兴趣模型, 依据相对浏览时间、相对拖动次数和在邮件上的操作,可以求出有过阅读和操作的正常邮件 的兴趣度;从网易邮箱帐户年月到现在的邮件中提取封邮件,经过兴趣模型和 改进算法结合分类后,得出正确率、精确率、召回率进行对比 为了更育观比较,我们选择了组邮件作为测试集数据进行对比实验,分别从从网易邮 箱, 邮箱,腾讯邮箱, 邮箱,新浪邮箱, 邮箱中随机抽取封作 为对比。对比结果如卜 准确率对比 Bayes算法 改进KN个性化算 0.2 组数 图准确率比较 精确率对比 资0.75 ∈s算法 一改进KN个性化算法 0.6 图3.2精确率比较 召回率对比 「■ 0.8 一改进w个性化算法 0. 组数 图3.3召回率比较 从实验数据可以看出,本文提出的基于改进的的个性化邮件系统在分类时,有了 显著地提髙,主要是由于贝叶斯在普遍性髙的情况下分类的效果好,但是由于个体用户邮件 规律性不是很强,形不成很好的规则,类偏移问题又比较突出,所以改进的个性化过 国科技论文在线 滤各个方面都表现突出,主要是分析角度的不同,得出的结论也不同 结论 本文给出了我们从个性化的需求岀发,改进后的个性化邮件过滤方法在较新的邮 件测试集上正确率、精确率、召回率都有所提高。改进后的个性化邯件过滤方法虽然 在一定程度上适应了用户的兴趣变化,但在用户兴趣度的计算上还存在一些问题,例如对于 值的选定,对于如何更好的描述用户的行为,如何更好的建立个个性化的兴趣模型,在 进一步的工作中还需要进行大量实验,通过对比大量邮件的估计用户兴趣度和计算的用户兴 趣度,调整各操作对用户兴趣度的贡献,得出更合理的取值。 参考文献 张帆信息组织学北京科学出版社, 干斌潘文锋基于内容的垃圾邮件过滤技术综述中文信息学报, 江涛陈小莉张玉芳熊忠阳基于聚类算法的文木分类算法研究训算机工程与应 用 张俊麒董振兴王国胤一种基于用户兴趣度的改进贝叶斯邮件过滤方法 已录用

...展开详情
试读 5P 论文研究-基于改进的KNN个性化过滤的研究 .pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
关注 私信
上传资源赚钱or赚积分
最新推荐
论文研究-基于改进的KNN个性化过滤的研究 .pdf 9积分/C币 立即下载
1/5
论文研究-基于改进的KNN个性化过滤的研究 .pdf第1页

试读结束, 可继续读1页

9积分/C币 立即下载 >