没有合适的资源?快使用搜索试试~ 我知道了~
数据挖掘实战–二手车交易价格预测(二)数据探索性分析(EDA)
13 下载量 145 浏览量
2020-12-21
22:07:53
上传
评论 2
收藏 189KB PDF 举报
温馨提示
试读
4页
包的安装: 采用Anaconda 3进行代码的编译,Anaconda 3里基础的数据分析包都已经准备好,我们需要安装的就是sklearn,lightgbm和xgboost包。 Anaconda可以支持我们采取多种方式安装所需要的包。可以采用pip,conda和从PYPI下载相关包等方式。这里采用的是pip方式。 pip install scikit-learn pip install lightgbm pip install xgboost 因为之前一直在进行Arcpy的开发工作,因此我电脑里装配的是Anaconda 2 32位,这在安装lightgbm和xgboost的过程中遇到了错误。因
资源详情
资源评论
资源推荐
数据挖掘实战数据挖掘实战–二手车交易价格预测(二)数据探索性分析(二手车交易价格预测(二)数据探索性分析(EDA))
包的安装:
采用Anaconda 3进行代码的编译,Anaconda 3里基础的数据分析包都已经准备好,我们需要安装的就是sklearn,lightgbm和xgboost包。
Anaconda可以支持我们采取多种方式安装所需要的包。可以采用pip,conda和从PYPI下载相关包等方式。这里采用的是pip方式。
pip install scikit-learn
pip install lightgbm
pip install xgboost
因为之前一直在进行Arcpy的开发工作,因此我电脑里装配的是Anaconda 2 32位,这在安装lightgbm和xgboost的过程中遇到了错误。因此又安装了
Anaconda 3 64位版本。同队的韩哥也遇到了报错的问题,似乎是因为pip的版本不够新,需要升级后再安装。
数据加载与查看数据加载与查看
首先我们需要将已有的数据读进内存里,
import pandas as pd
import numpy as np
import warnings
#为了防止没有维护的包弹警告,可以在这里过滤掉警告
warnings.filterwarnings('ignore')
#在Jupyter里,可能会对过多的列进行隐藏, 如果想要查看全部的列,可以设置max_columns
pd.set_option('display.max_columns', None)
train_df = pd.read_csv('D:/DataMining/Train Data/used_car_train_20200313.csv', sep=' ')
print(train_df.shape)
train_df.describe()
train_df.head()
下一步来求一下空值数量,看看各个变量空值缺失的状况,如果缺失多,可以考虑在构建特证的时候剔除。
train_df.isnull().sum().sort_values(ascending=False).head()
接下来看一下价格的分布
import matplotlib.pyplot as plt
import seaborn as sns
plt.figure()
sns.distplot(train_df['price'])
plt.figure()
train_df['price'].plot.box()
plt.show()
再将测试集读进来,看一下测试集的状态。
import gc
test_df = pd.read_csv('datalab/231784/used_car_testA_20200313.csv', sep=' ')
print(test_df.shape)
df = pd.concat([train_df, test_df], axis=0, ignore_index=True)
del train_df, test_df
gc.collect()
df.head()
我们接下来可以看一下非匿名的几个可能会比较相关的数据的分布。
plt.figure()
plt.figure(figsize=(16, 6))
i = 1
for f in date_cols:
weixin_38669881
- 粉丝: 5
- 资源: 918
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 通道处理过程的模拟通常涉及对通道处理机制的理解与实现.txt
- Flume进阶-自定义拦截器jar包
- Dubins曲线算法讲解和在运动规划中的使用.pdf
- 上市公司-股票性质数据-工具变量(民企、国企、央企)2003-2022年.dta
- 上市公司-股票性质数据-工具变量(民企、国企、央企)2003-2022年.xlsx
- Reeds+Shepp曲线算法讲解和实现.pdf
- 毕业设计基于SpringBoot+MyBatisPlus+MySQL+Vue的外卖配送信息系统源代码+数据库
- 词向量(Word Embeddings)是自然语言处理(NLP)领域的一种重要技术.txt
- Surfer,线性函数
- MyBatis 的动态 SQL 是其核心特性之一.txt
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0