python数据分析数据分析-数据清洗流程(附脑图和代码实例)数据清洗流程(附脑图和代码实例)
无论是做机器学习还是做数据分析,都离不开获取数据后的第一步-数据清洗工作。据统计,数据清洗工作占据整个工作时间百分之50左右,有的甚至
能达到百分之70。下面我将介绍我进行数据清洗得思路流程。
数据清洗整体流程脑图(不断更新中数据清洗整体流程脑图(不断更新中…))
数据准备数据准备
本次数据清洗工作我们使用得数据是一个借贷机构开放的用户数据(仅用于个人练习),由于源数据量有将近30万,考虑到运行速度,这里例子从这
30万中随机抽取1万条数据。
下载地址:LCIS.csv
提取码:ag8t
注:此数据仅仅作为方法演示使用,忽略真实数据分析时的业务逻辑考虑。
导入相应的导入相应的python工具包和数据工具包和数据
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
plt.rcParams['font.sans-serif']=['SimHei']#这两句作用为防止中文乱码
plt.rcParams['axes.unicode_minus']=False
data = pd.read_csv('data/LCIS.csv')
data = data.sample(10000)#抽取样例10000个
data.reset_index(inplace=True)#重置索引
数据缺失值判定数据缺失值判定
一、热力图显示数据的缺失一、热力图显示数据的缺失
sns.heatmap(data.isnull(),cmap="YlGnBu")
plt.show()
评论1
最新资源