作者:大数据私房菜

0004-数据清洗

在我们想尽各种办法把数据弄进数据仓库ods层后,接下来的事情就比较有意思了,并且比较重要,对后续的数据模型建设,数据质量的保证,甚至影响管理层的决策(就问你怕不怕?)

那么,对于ETL过程中的数据清洗,你一般会怎么做呢?但凡你真正的做过数仓,我认为这些都是轻车熟路的,因为这是数据研发的必经之路

我在对候选人进行考察的时候,也经常会问到这个问题,主要是看一下候选人有没有真实工作经验,然后在开发过程中有没有独立思考,并且知其然更知其所以然,但是候选人回答的都比较片面,比如只是处理空值,可能是公司数据质量的原因,但是就算公司业务库数据质量比较高,我们也应该需要全面的了解一些数据清洗规范。

lock