数据清洗的一些梳理_BigData-CSDN专栏

数据清洗的一些梳理

数据清洗，是整个数据分析过程中不可缺少的一个环节，其结果质量直接关系到模型效果和最终结论。在实际操作中，数据清洗通常会占据分析过程的50%—80%的时间。国外有些学术机构会专门研究如何做数据清洗，相关的书籍也不少。

（美亚搜data cleaning的结果，可以看到这书还挺贵）

我将在这篇文章中，尝试非常浅层次的梳理一下数据清洗过程，供各位参考。

照例，先上图：

预处理阶段主要做两件事情：

一是将数据导入处理工具。通常来说，建议使用数据库，单机跑数搭建MySQL环境即可。如果数据量大（千万级以上），可以使用文本文件存储+Python操作的方式。

二是看数据。这里包含两个部分：一是看元数据，包括字段解释、数据来源、代码表等等一切描述数据的信息；二是抽取一部分数据，使用人工查看方式，对数据本身有一个直观的了解，并且初步发现一些问题，为之后的处理做准备。

缺失值是最常见的数据问题，处理缺失值也有很多方法，我建议按照以下四

数据清洗的一些梳理