1.数据获取:获取关注同一所院校的用户信息
2.数据清洗:删除重复数据,纠正缺失和错误的数据
3.数据挖掘算法:
采用基于用户的协同过滤算法(基于用户的协同过滤算法是通过用户的历史行为数据
发现用户对商品或内容的喜欢(如商品购买,收藏,内容评论或分享),并对这些喜好进行
度量和打分。)
1.1 寻找偏好相似的用户
通过用户关注院校相似度,来度量不同用户间报考院意愿
院校 1 院校 2 院校 3
用户 A 是 否 是
用户 B 是 是 是
用户 C 否 是 是
用户 D 否 是 否
用户 E 否 否 是
(设收藏为 1,未收藏为 0)
皮尔逊相关系数
结果是一个在-1 与 1 之间的系数。该系数用来说明两个用户间联系的强弱程度。
相关系数的分类
0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关
皮尔逊相关系数的计算公式:
两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:
上式定义了总体相关系数,常用希腊小写字母
作为代表符号。估算样本的协方差和标准差,可得到皮尔逊相关系数,常用英文小写
字母
代表:
评论0
最新资源