python数据清洗_数据清洗实验报告资源-CSDN文库

5星 · 超过95%的资源需积分: 49 149 浏览量 2018-07-22 19:22:13 上传评论 10 收藏 372KB DOCX 举报

资源推荐

资源详情

资源评论

一、实验目的

（1）了解数据清洗的重要性；

（2）掌握如何有效地进行数据清洗；

（3）体会一些思考问题的逻辑思维。

二、实验环境

操作系统：Windows

应用软件：Python 3.6、Notepad++、Excel

三、实验内容

3.1 为什么要数据清洗？

现如今是一个大数据的时代，统计学家在谈论什么事情都绕不开数据这个主

角。但很多时候，我们收集得来的数据是乱七八糟的，所以数据清洗就在数据

科学的过程中显得尤为重要了。只有得到了干净的数据，我们才能够对数据进

行进一步的分析和可视化。同时，我们也要记得写好清洗日志和做好数据备份。

3.2 如何进行数据清洗？

因为数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，

包括检查数据一致性，处理无效值和缺失值等，所以我将数据清洗过程归结为

以下五个流程：

解决缺失值

↓

检测并消除重复值

↓

 !"!!#$!!%

用 %方法读入 ，读入后数据的类型默认是 #&

选择用于训练的特征

'()(*+(,((&(-,$.

)'.

)%

用 #&%方法得到它的列变量信息，通过信息可看出训练数据中

*+(-,$ 存在缺失值

)')%/.

数据框引用某一列有两种方式，一个是用引用，一个是'.引用

%会返回一个值是 , 的  序列，所以上一句代码可以返回含有

缺失值的行和列，从而找到缺失值的位置

*+ 是数值型数据，可以使用平均值来补全空值，尽量减小补全值对结果的影

响。

使用平均年龄来填充年龄中  值

)'*+.0)'*+.%(/%

0%会填充  数据，返回填充后的结果。如果希望在原 #& 中修改，

则把  设置为 /

-,$ 是类别数据，取出现次数最多的类别来补全空值。

使用登录最多的港口来填充登录港口的  值

)'-,$.%%

)'-,$.0(/%

重新检查数据中是否存在缺失值

)%

剩余18页未读，继续阅读

内容反馈

贼仙呐

2023-07-27

这个文件提供了一些不错的数据清洗方法，对于想要学习Python数据处理的人来说是个不错的参考。
杜拉拉到杜拉拉

2023-07-27

这个文件的实用性很高，在实际工作中，我尝试了其中的一些方法，结果非常有效。
萱呀

2023-07-27

这个文件对于初学者来说也很友好，它提供了一些具体的例子，帮助我更好地理解了Python数据清洗的概念和步骤。
lirumei

2023-07-27

作者在这个文件中分享了一些实际项目中遇到的数据清洗问题，并给出了解决方案，这让我受益匪浅。
山林公子

2023-07-27

这份文件使用简洁清晰的语言，帮助我快速理解了数据清洗的基本原理和方法。

丹儿993

粉丝: 2
资源: 1

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip