第二部分是对数据表进行检查,python 中处理的数据量通常会比较大,比如我们之前的文章中
介绍的纽约出租车数据和 Citibike 的骑行数据,数据量都在千万级,我们无法一目了然的 了解
数据表的整体情况,必须要通过一些方法来获得数据表的关键信息。数据表检查的另一个目的是
了解数据的概况,例如整个数据表的大小,所占空间,数据格式,是否有空值和重复项和具体的
数据内容。为后面的清洗和预处理做好准备。
数据维度(行列)
Excel 中可以通过 CTRL+向下的光标键,和 CTRL+向右的光标键来查看行号和列号。Python
中使用 shape 函数来查看数据表的维度,也就是行数和列数,函数返回的结果(6,6)表示数据表
有 6 行,6 列。下面是具体的代码。
#查看数据表的维度
df.shape
(6, 6)