2022/3/14 4.11 数据预处理-1
file:///D:/Python39/envs/pydata/教材配套代码/模块四 数据处理Pandas/4.11 数据预处理-1.html 1/4
关于缺失值
在能够使用大型数据集训练学习算法之前,我们通常需要先清理数据, 也就是说,我们需要通过某个方法检测并更正数据中的错误。
任何给定数据集可能会出现各种糟糕的数据,例如离群值或不正确的值,但是我们几乎始终会遇到的糟糕数据类型是缺少值。
Pandas 会为缺少的值分配 NaN 值。
缺失值检测
dropna 根据标签的值中是否存在缺失数据对轴标签进行过滤(删除),可通过阈值调节对缺失值的容忍度
fillna 用指定值或插值方法(如ffill或bfill)填充缺失数据
isnull 返回一个含有布尔值的对象,这些布尔值表示哪些值是缺失值NA
notnull Isnull的否定式
dropna函数定义:
DataFrame.dropna( axis=0, how=‘any’, thresh=None, subset=None, inplace=False)
axis参数确定是否删除包含缺失值的行或列:
axis=0或axis='index’删除含有缺失值的行,
axis=1或axis='columns’删除含有缺失值的列,
how参数当我们至少有一个NA时,确定是否从DataFrame中删除行或列,how='all’或者how=‘any’:
how='all’时表示删除全是缺失值的行(列)
how='any’时表示删除只要含有缺失值的行(列)
#
引
入
相
关
模
块
import
numpy
as
np
# pandas
和
numpy
常常
结
合
在
一
起
使
用
,
导
入
numpy
库
import
pandas
as
pd
#
导
入
pandas
库
print(pd
.
__version__)
#
打
印
pandas
版
本
信
息
评论4
最新资源