没有合适的资源？快使用搜索试试~ 我知道了~

文库首页安全技术网络安全数据科学——电影数据集关联度分析1

数据科学——电影数据集关联度分析1

需积分: 0 3 下载量 61 浏览量 2022-08-03 15:33:05 上传评论收藏 354KB PDF 举报

温馨提示

试读

13页

1.数据集引入分析： 2.数据分析流程 3.数据集预处理 4.数据处理 5.分析数据

资源详情

资源评论

资源推荐

利用 FP-Growth 算法对“电影推荐数据集”进行处理，给出处理结果，给出结

论描述。

电影数据集关联度分析

胡成成——41724260——通信 1701

随着时代的变迁，科技的发展，看电影也成了人们生活的一部分。该篇报

告对 2017 年之前的上映过的电影及其分类的数据集进行处理，旨在通过关联度

分析对电影的一些类别联系进行研究，并对各类电影类别占比分析，对未来电

影上映类别的预测。现在通过 FP-Growth 算法对这样的数据进行分析，通过支

持度和置信度得到关联规则，通过对关联规则的分析处理得到我们要的结论。

并在对电影数据集的处理中，通过实际操作处理，实践学习 FP-Growth 算法的

关联度处理过程以及一般的流程。

1.数据集引入分析：

第一列：电影的 id 编号，第二列，电影名称及其年份，第三列，电影所属

的类别：包括 Adventure（冒险），Animation（动画），Children（儿童），Comedy

（喜剧），Fantasy（幻想）等等类型。数据一共 9125 条。

2.数据分析流程

3.数据集预处理

4.数据处理

4.1 相关参数与标准设定

由于关联度分析需要对支持度和置信度分析处理，在这里我们对最小支持度

根据数据集实际情况进行设定。对置信度进行分区段展示分析。

 最小支持度：100

 置信度 conf（P（A&B）/P(A)）的区间与 A 对 B 关联的等级划分：

置信度

conf<0.4

0.4<conf<0.55

0.55<conf<0.7

Conf>0.7

关联等级

很弱

较弱

较强

很强

 支持度 support(sup)>100，这里用数量等价表示：

支持度

Sup<500

500<sup<1000

1000<sup<2000

sup>2000

数量等级

较低

中等

较高

很高

4.2 根据设定的等级对不同置信区间筛选

对程序（见附录）中的 min_conf 与 max_conf 进行调整得出四种情况下的存

在关联的个数和规则。

置信度

conf<0.4

0.4<conf<0.55

0.55<conf<0.7

Conf>0.7

关联个数

167

 相关程序块代码：

#关联规则和置信度

i = 0

min_conf=0.55

max_conf=0.7

association_rules = []

for item_set in frequent_all_list:

for conclusion in frequent_all_list:

if conclusion > item_set:

confidence =

float(frequent_all_key_value_set[str(list(conclusion))] /

frequent_all_key_value_set[str(list(item_set))])

if confidence > min_conf and confidence<max_conf:

i += 1

association_rules.append([[item_set, conclusion-item_set],

confidence])

print(i)

print(association_rules)

 对 conf>0.7 的数据关联规则做展示：

剩余12页未读，继续阅读

内容反馈

蓝洱

粉丝: 23
资源: 316

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

数据科学——电影数据集关联度分析1

评论0

最新资源

数据科学——电影数据集关联度分析1

评论0

基于语义理解的技术需求和技术成果关联度分析内含数据集和教程.zip

基于灰关联度的面板数据聚类方法及在空气污染分析中的应用

啤酒与尿布的二维数据关联度分析

大数据-算法-溃坝水流数值模拟与灰关联度分析.pdf

优达学城——python数据分析——探索电影数据集

python数据分析——探索电影数据集.zip

网络流量数据集——Moore

Python数据分析——基于公众号阅读数据的相关性分析

商业分析全攻略——用数据分析方法解决商业问题

机器学习线性回归 实例数据集——广告投入与销售额

滑块验证码数据集——COCO格式——1075张

商业分析全攻略——用数据分析方法解决商业问题视频课程

Titanic数据集——Kaggle上下载

数据科学——探索性分析报告1

企业经营数据分析——思路、方法、应用与工具

北京市互联网产业的产业关联度分析——基于投入产出计算.pdf

python项目——Excel数据分析师.zip

数据挖掘考试题目——关联分析.docx

数据科学——系统分析概要1

SQL语言在会计数据分析中的应用——基于用友会计软件的实证分析.pdf

行人检测数据集——pascalvoc格式

医疗数据治理——构建高质量医疗大数据智能分析数据基础.docx

利用Java进行疫情大数据分析——“Java面向对象程序设计”课程实践教学设计研究.pdf

BurpLoaderKeygen.jar.zip

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

Goby红队版-win-x64-2.4.7版本

Chrome Header Editor 插件

ISO SAE 21434-2021 中文版.pdf

最新资源

机器学习线性回归实例数据集——广告投入与销售额