没有合适的资源?快使用搜索试试~ 我知道了~
数据科学——电影数据集关联度分析1
需积分: 0 3 下载量 61 浏览量
2022-08-03
15:33:05
上传
评论
收藏 354KB PDF 举报
温馨提示
试读
13页
1.数据集引入分析: 2.数据分析流程 3.数据集预处理 4.数据处理 5.分析数据
资源详情
资源评论
资源推荐
利用 FP-Growth 算法对“电影推荐数据集”进行处理,给出处理结果,给出结
论描述。
电影数据集关联度分析
胡成成——41724260——通信 1701
随着时代的变迁,科技的发展,看电影也成了人们生活的一部分。该篇报
告对 2017 年之前的上映过的电影及其分类的数据集进行处理,旨在通过关联度
分析对电影的一些类别联系进行研究,并对各类电影类别占比分析,对未来电
影上映类别的预测。现在通过 FP-Growth 算法对这样的数据进行分析,通过支
持度和置信度得到关联规则,通过对关联规则的分析处理得到我们要的结论。
并在对电影数据集的处理中,通过实际操作处理,实践学习 FP-Growth 算法的
关联度处理过程以及一般的流程。
1.数据集引入分析:
第一列:电影的 id 编号,第二列,电影名称及其年份,第三列,电影所属
的类别:包括 Adventure(冒险),Animation(动画),Children(儿童),Comedy
(喜剧),Fantasy(幻想)等等类型。数据一共 9125 条。
2.数据分析流程
3.数据集预处理
4.数据处理
4.1 相关参数与标准设定
由于关联度分析需要对支持度和置信度分析处理,在这里我们对最小支持度
根据数据集实际情况进行设定。对置信度进行分区段展示分析。
最小支持度:100
置信度 conf(P(A&B)/P(A))的区间与 A 对 B 关联的等级划分:
置信度
conf<0.4
0.4<conf<0.55
0.55<conf<0.7
Conf>0.7
关联等级
很弱
较弱
较强
很强
支持度 support(sup)>100,这里用数量等价表示:
支持度
Sup<500
500<sup<1000
1000<sup<2000
sup>2000
数量等级
较低
中等
较高
很高
4.2 根据设定的等级对不同置信区间筛选
对程序(见附录)中的 min_conf 与 max_conf 进行调整得出四种情况下的存
在关联的个数和规则。
置信度
conf<0.4
0.4<conf<0.55
0.55<conf<0.7
Conf>0.7
关联个数
167
28
13
2
相关程序块代码:
#关联规则和置信度
i = 0
min_conf=0.55
max_conf=0.7
association_rules = []
for item_set in frequent_all_list:
for conclusion in frequent_all_list:
if conclusion > item_set:
confidence =
float(frequent_all_key_value_set[str(list(conclusion))] /
frequent_all_key_value_set[str(list(item_set))])
if confidence > min_conf and confidence<max_conf:
i += 1
association_rules.append([[item_set, conclusion-item_set],
confidence])
print(i)
print(association_rules)
对 conf>0.7 的数据关联规则做展示:
剩余12页未读,继续阅读
蓝洱
- 粉丝: 23
- 资源: 316
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0