一、数据准备
字段以及字段名解析
表
字段 备注 字段类型
上传者用户名
上传视频数
朋友数量
视频表:
字段 备注 详细描述
视频唯一 位字符串
视频上传者 上传视频的用户名
视频年龄 视频上传日期和年月
日之间的整数天( 的独特设定)
视频类别 上传视频指定的视频分类
视频长度 整形数字标识的视频长度
观看次数 视频被浏览的次数
视频评分 满分分
流量 视频的流量,整型数字
评论数 一个视频的整数评论数
相关视频 相关视频的,最多个
二、数据清洗
通过 将数据清洗出来,通过观察原始数据形式,可以发现,视频可以
有多个所属分类,每个所属分类用!符号分割,且分割的两边有空格字符,同时相关视频
也是可以有多个元素,多个相关视频又用“"”进行分割。为了分析数据时方便对存在多个
子元素的数据进行操作,我们首先进行数据重组清洗操作。即:将所有的类别用“!”分割,
同时去掉两边空格,多个相关视频也使用“!”进行分割。将数据放到 指定的文件夹
里面。
#$% 数据清洗
#$%&
'#$%&(
#$%&)
#$*+,)
-./+0"0,(
1%/1+,(
22去掉空格
-3./-3.4+00500,(