## DataWrangle-WeRateDogs
本项目分析整理完成了推特用户 @dog_rates的推文数据,包括每条推特的ID,推文内容,推文中狗子的评级、评分数据,转发数,点赞数,来源以及图像预测结果等。并过对清洁后的数据进行了初步可视化探索分析。
项目使用的工具为Jupyter Notebook,使用Python中的pandas,numpy及matplotlib模块。
### 第一部分 数据整理
#### 1.收集
使用Requests模块,利用Github repo中对应的URL编程下载,完成对WeRateDogs 推特档案、推特图片预测数据以及每条推特数据的收集,并使用json模块从数据中提取推文的retweet_count和favorite_count,转换为DataFrame结构数据。
#### 2.评估
使用目测评估及编程评估两种方式,发现以下的数据问题:
1)质量问题
- 数据冗余,比如没有附图、转发的以及与评级不相关的行,有效值很少与分析无关的列;
- 在name列及狗子评级列中空值为字符串 'None',而不是 NaN;
- 狗子的评级数据提取错误,同一只狗子出现两种评级类型,并且有缺失值;
- 推特档案中部分狗子的名字提取错误,并且有缺失值;
- 推特档案中部分狗子的评分包含缺失值及无效值;
- source列数据冗余不清晰,应只包含推特来源;
- 类型错误,timestamp应该是时间类型而不是字符串;来源列,狗子评级列,推特图片预测数据中的p1,p2,p3列应为分类类型,而不是字符串。
2)整洁度
- 狗子的评级应为单独一列;
- 三个来源的数据应该在同一数据集中。
#### 3.清理
- 清理冗余数据,即清理转发的以及与狗子评级不相关的推文;
- 清理会影响到数据合并、或合并后不易清理的质量问题,如冗余列、空值为字符串 'None'、名字提取错误、评级数据提取错误等;
- 整洁度问题清理,合并狗子评级、合并三个独立Dataframe(在合并过程中完成对不含图片推文的清理);
- 清理剩余所有的质量问题。
#### 4.保存数据
导出整理后的数据,命名为twitter_archive_master.csv。
### 第二部分 可视化分析
完成对狗子评分的分布可视化探索、狗子评分值与点赞数量的相关性的可视化与线性回归分析,以及推特发布数量与获得点赞数的时间分布可视化探索。
收集、整理推特用户数据,并做初步分析.zip
版权申诉
176 浏览量
2024-01-03
01:47:56
上传
评论
收藏 1.71MB ZIP 举报
马coder
- 粉丝: 1203
- 资源: 6602
最新资源
- 基于ATLAB + Psychtoolbox 心理学实验,情绪词汇效价判断
- 美赛数学建模算法-使用Matlab实现神经网络NeuralNetwork-包括BP+LVQ-国赛-题解.zip
- hb-mapper-makertbin.log
- dfcf_silence_upgrade_cfw_10.15.3_20240318163518_64.apk
- 美赛数学建模算法-使用Matlab实现多元分析MultivariteAnalysis-包括聚类分析+主成分分析-国赛-题解
- 构成学1.psd
- 美赛数学建模算法-使用Matlab实现线性规划LinearProgramming-国赛-题解.zip
- npp-7.2.2-Installer-语言修改器
- FY4B AGRI先进的静止轨道辐射成像仪波段响应函数
- 学习Demo影视推荐、音乐播放、地图
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈