Data columns (total 14 columns):
sales_time 10000 non-null datetime64[ns]
sales_price 10000 non-null int64
bedroom_num 10000 non-null int64
bathroom_num 10000 non-null float64
house_area 10000 non-null int64
park_space 10000 non-null int64
floor_num 10000 non-null float64
house_score 10000 non-null int64
covered_area 10000 non-null int64
basement_area 10000 non-null int64
yearbuilt 10000 non-null datetime64[ns]
yearremodadd 10000 non-null object
lng 10000 non-null float64
lat 10000 non-null float64
dtypes: datetime64[ns](2), float64(4), int64(7), object(1)
memory usage: 1.0+ MB
pandas 的 IO 函数,提供了在读取数据时,处理日期对象的参数 parse_dates,
可以在读取数据时,把想要转换为日期对象的字段,以列表的形式传入参数。
在深入机器学习或统计建模之前,EDA 是一个重要的步骤,EDA 目的是最大化对
数据的直觉,完成这个事情的方法只能是结合
以各种形式展现出
来。
• 1,先看下数据集中的房价分布
train.sales_price.describe()
#输出
count 1.000000e+04
mean 5.428749e+05
std 3.729258e+05
min 7.500000e+04
25% 3.225000e+05
50% 4.507000e+05
75% 6.450000e+05
max 6.885000e+06
Name: sales_price, dtype: float64
可视化
评论1
最新资源