没有合适的资源?快使用搜索试试~ 我知道了~
数据可视化-广电大数据-实验报告
需积分: 3 0 下载量 45 浏览量
2024-05-15
13:11:13
上传
评论
收藏 2.82MB DOCX 举报
温馨提示
试读
15页
数据可视化-广电大数据-实验报告
资源推荐
资源详情
资源评论
实验背景
随着科技的发展,现在人们观看电视节目的方式越来越多,给人们带了很多便利。
为了更好地为用户提供服务,并提高收益和收视率,需要对广电数据进行分析。
本实验通过 Python 编程语言,使用广电大数据进行可视化分析,探究广电大数
据的特点和规律。帮助企业掌握广电大数据可视化的项目分析结果,给决策部门
提供一个完整规范的方案,并帮助企业灵活调整经营决策。
实验步骤及结果
1. 数据读取
收集大数据平台上的数据进行读取,并清楚数据的结构。通过 pandas 库中的
read_csv()函数读取用户收视行为数据和收费数据。代码及结果如图所示。
表名
行
列
用户收视行为数据
4246720
12
收费数据
154667
6
2. 数据预处理
因为两个数据中存在的数据量相对较多并且有不同情况,因此需要分别对收视行
为信息数据和收费数据进行清洗处理。
(1)收视行为信息数据:
① 在 用 户 的 收 视 行 为 信 息 数 据 ( media_index ) 中 存 在 直 播 频 道 名 称
(station_name)中含有“-高清”字段,如“广东体育-高清”与“广东体育”
等。由于实验中暂时不考虑是否为高清频道的情况,所以需要将直播频道名称中
“-高清”字段替换为空。
②从面向对象分析,该广电运营商主要面向的对象是众多的普通家庭,而收视行
为信息数据中存在特殊线路和政企类的用户,所以需要将这部分数据删除。
③在收视行为信息数据中存在有同一用户开始观看时间(origin_time)和结束
观看时间(end_time)重复的记录数据,而且观看的节目不同。因此需要基于数
据中开始观看时间(origin_time)和结束观看时间(end_time)的记录进行去
重。
④存在用户观看节目的开始观看时间和结束观看时间的单位秒为 00 的整点(秒)
剩余14页未读,继续阅读
资源评论
大象代码
- 粉丝: 196
- 资源: 13
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功