import pandas as pd
import numpy as np
import seaborn as sns
from lightgbm import LGBMRegressor
from matplotlib import pyplot as plt
from sklearn.ensemble import BaggingRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.ensemble import AdaBoostRegressor
from sklearn.tree import ExtraTreeRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
import xgboost as xgb
from xgboost import XGBRegressor
train_pd = pd.read_csv("train.csv", sep=' ')
test_pd = pd.read_csv("test.csv", sep=' ')
continuous_variable = ['power', 'kilometer', 'price', 'v_0', 'v_1', 'v_2', 'v_3', 'v_4', 'v_5', 'v_6', 'v_7', 'v_8',
'v_9', 'v_10', 'v_11', 'v_12', 'v_13', 'v_14']
for i in continuous_variable:
fig = sns.distplot(np.log1p(train_pd[i]))
fig_save = fig.get_figure()
fig_save.savefig('{}.png'.format(i), dpi=300)
fig_save.clear()
corr = train_pd[continuous_variable].corr()
ax = plt.subplots(figsize=(20, 16)) # 调整画布大小
fig = sns.heatmap(corr, vmax=.8, square=True, annot=True) # 画热力图 annot=True 表示显示系数
fig_save = fig.get_figure()
fig_save.savefig('heatmap.png', dpi=300)
fig_save.clear()
# 设置刻度字体大小
plt.xticks(fontsize=20)
plt.yticks(fontsize=20)
df = pd.concat([train_pd, test_pd], axis=0)
df = df.replace('-', np.nan)
print(df.isnull().sum())
df['fuelType'] = df['fuelType'].fillna(0).astype(np.float64)
df['gearbox'] = df['gearbox'].fillna(0).astype(np.float64)
df['bodyType'] = df['bodyType'].fillna(0).astype(np.float64)
df['model'] = df['model'].fillna(0).astype(np.float64)
df['notRepairedDamage'] = df['notRepairedDamage'].fillna(0).astype(np.float64)
df['creatDate_year'] = df['creatDate'].apply(lambda x: str(x)[:4]).astype(np.int32)
df['creatData_month'] = df['creatDate'].apply(lambda x: str(x)[4:6]).astype(np.int32)
df['creatDate_day'] = df['creatDate'].apply(lambda x: str(x)[6:8]).astype(np.int32)
df['regDate_year'] = df['regDate'].apply(lambda x: str(x)[:4]).astype(np.int32)
df['regData_month'] = df['regDate'].apply(lambda x: str(x)[4:6]).astype(np.int32)
df['regDate_day'] = df['regDate'].apply(lambda x: str(x)[6:8]).astype(np.int32)
df['power'] = df['power'].apply(lambda x: 600 if x > 600 else x)
bin = [i*10 for i in range(31)]
df['power_bin'] = pd.cut(df['power'], bin, labels=False)
bin = [i*10 for i in range(24)]
df['model_bin'] = pd.cut(df['model'], bin, labels=False)
print(df['power_bin'])
v_high_correspondence = ['v_0', 'v_3', 'v_8', 'v_12']
for i in v_high_correspondence:
for j in v_high_correspondence:
df[i + "+" + j] = df[i] + df[j]
for i in v_high_correspondence:
for j in v_high_correspondence:
df[i + '-' + j] = df[i] - df[j]
for i in v_high_correspondence:
for j in v_high_correspondence:
df[i + '*' + j] = df[i] * df[j]
y_id = test_pd["SaleID"] # 获取测试集的id,以便后面保存为csv文件
df.drop(['SaleID'], axis=1, inplace=True)
df.drop(['regDate'], axis=1, inplace=True)
df.drop(['creatDate'], axis=1, inplace=True)
df.drop(['regionCode'], axis=1, inplace=True)
df.drop(['name'], axis=1, inplace=True)
train_pd = df[df['price'].notnull()]
test_pd = df[df['price'].isnull()]
# model = RandomForestRegressor()
model = LGBMRegressor(
n_estimators=300000,
learning_rate=0.02,
boosting_type='gbdt',
objective='regression_l1',
max_depth=-1,
num_leaves=31,
min_child_samples=20,
feature_fraction=0.8,
bagging_freq=1,
bagging_fraction=0.8,
lambda_l2=2,
random_state=2022,
metric='mae',
)
# model = RandomForestRegressor(n_estimators=25, random_state=42, oob_score=True)
model.fit(train_pd.drop('price', axis=1), np.log1p(train_pd['price']))
y_pred = model.predict(test_pd.drop('price', axis=1))
y_pred = np.expm1(y_pred)
result = pd.DataFrame({'SaleID': y_id, 'price': y_pred.astype(np.int32)})
result.to_csv("submission.csv", index=False)
没有合适的资源?快使用搜索试试~ 我知道了~
基于机器学习的二手车价格预测算法源码+项目说明.zip
共33个文件
png:21个
xml:5个
csv:3个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
5星 · 超过95%的资源 1 下载量 185 浏览量
2024-01-19
11:10:39
上传
评论 4
收藏 25.33MB ZIP 举报
温馨提示
1、该资源内项目代码经过严格调试,下载即用确保可以运行! 2、该资源适合计算机相关专业(如计科、人工智能、大数据、数学、电子信息等)正在做课程设计、期末大作业和毕设项目的学生、或者相关技术学习者作为学习资料参考使用。 3、该资源包括全部源码,需要具备一定基础才能看懂并调试代码。 基于机器学习的二手车价格预测算法源码+项目说明.zip基于机器学习的二手车价格预测算法源码+项目说明.zip基于机器学习的二手车价格预测算法源码+项目说明.zip基于机器学习的二手车价格预测算法源码+项目说明.zip基于机器学习的二手车价格预测算法源码+项目说明.zip基于机器学习的二手车价格预测算法源码+项目说明.zip基于机器学习的二手车价格预测算法源码+项目说明.zip基于机器学习的二手车价格预测算法源码+项目说明.zip基于机器学习的二手车价格预测算法源码+项目说明.zip基于机器学习的二手车价格预测算法源码+项目说明.zip基于机器学习的二手车价格预测算法源码+项目说明.zip基于机器学习的二手车价格预测算法源码+项目说明.zip基于机器学习的二手车价格预测算法源码+项目说明.zip
资源推荐
资源详情
资源评论
收起资源包目录
基于机器学习的二手车价格预测算法源码+项目说明.zip (33个子文件)
project_code_0628
v_3.png 69KB
submission.zip 137KB
kilometer.png 60KB
main.py 4KB
v_0.png 68KB
v_8.png 77KB
v_4.png 69KB
v_2.png 72KB
.idea
vcs.xml 180B
misc.xml 198B
inspectionProfiles
Project_Default.xml 444B
profiles_settings.xml 174B
modules.xml 280B
.gitignore 47B
pythonProject3.iml 284B
price.png 85KB
v_9.png 76KB
name.png 68KB
v_1.png 54KB
v_6.png 64KB
v_14.png 71KB
heatmap.png 966KB
v_11.png 76KB
v_10.png 67KB
v_5.png 59KB
train.csv 41.41MB
power.png 78KB
v_12.png 70KB
v_13.png 69KB
regionCode.png 73KB
submission.csv 311KB
v_7.png 60KB
test.csv 10.2MB
共 33 条
- 1
资源评论
- weixin_583471552024-07-23终于找到了超赞的宝藏资源,果断冲冲冲,支持!
辣椒种子
- 粉丝: 4137
- 资源: 5738
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功