基于线性回归实现波士顿房价预测.zip_波士顿房价预测资源-CSDN文库

共13个文件

xml：4个

py：3个

pdf：1个

机器学习

线性回归

波士顿房价

需积分: 5 193 浏览量 2021-11-12 18:46:25 上传评论 41 收藏 339KB ZIP 举报

《基于线性回归实现波士顿房价预测》在当今的机器学习领域，线性回归是一种基础且重要的预测模型，广泛应用于各种数据科学项目中。本资料包专注于使用线性回归来预测波士顿地区的房价，是初学者理解并实践机器学习算法的理想资源。波士顿房价数据集是机器学习的经典案例，它包含了1978年波士顿郊区15个社区的住房数据，共506条记录。数据集包括了多个特征，如犯罪率、房间数量、平均房间大小、财产税等，以及目标变量——每栋房屋的中位价格。这些特征提供了对房价影响的多维度视角，使得该数据集成为研究多元线性关系的理想选择。在这个项目中，你可以找到三个Python脚本（boston3.0.py、boston2.0.py、boston.py），它们分别实现了线性回归、岭回归和Lasso回归。线性回归是最基础的模型，通过建立特征与目标变量之间的线性关系进行预测。而岭回归和Lasso回归是线性回归的变种，它们通过引入正则化项来解决过拟合问题。岭回归使用L2范数正则化，可以有效地减少模型的复杂度，但不会使任何特征权重完全为零。Lasso回归则采用L1范数正则化，它倾向于产生稀疏解，即部分特征权重会被压缩至零，从而实现特征选择。你需要加载波士顿房价数据集，无论是csv版本的boston.csv还是原始的housing.data，都可以通过pandas库方便地处理。接着，数据预处理是关键步骤，包括缺失值处理、异常值检测和特征缩放。之后，你可以使用sklearn库中的LinearRegression、Ridge或Lasso类来构建模型。训练过程中，应将数据集划分为训练集和测试集，避免过拟合。评估模型性能，常用的指标有均方误差（MSE）、均方根误差（RMSE）和决定系数R²。除了代码实现，资料包还提供了任务说明文档（任务说明.docx）和一份详细的PDF教程（回归-波士顿房价预测.pdf），这些文档将帮助你理解模型背后的理论，以及如何解读和优化结果。它们将指导你逐步完成从数据导入到模型构建、训练和验证的全过程。这个压缩包是学习和实践线性回归模型，尤其是岭回归和Lasso回归的理想起点，同时也适合对机器学习有一定基础的读者深入理解正则化技术。通过这个项目，你不仅能掌握基础的预测模型，还能体验到实际数据分析项目的流程，提升你的编程和问题解决能力。

资源详情

资源评论

资源推荐

收起资源包目录

基于线性回归实现波士顿房价预测.zip （13个子文件）

回归-波士顿房价预测.pdf 160KB

任务说明.docx 153KB

boston3.0.py 4KB

boston2.0.py 3KB

.idea

.gitignore 50B

misc.xml 208B

workspace.xml 5KB

实验2.iml 412B

inspectionProfiles

profiles_settings.xml 174B

modules.xml 273B

housing.data 48KB

boston.csv 34KB

boston.py 2KB

from sklearn.datasets import load_boston import matplotlib.pyplot as plt import numpy as np from sklearn.model_selection import train_test_split from sklearn import linear_model dataset = load_boston() x_data = dataset.data y_data = dataset.target name_data = dataset.feature_names for i in range(13): # 13是name_data的维数，你可以在上一步中将name_data打印出来查看 plt.subplot(7, 2, i+1) # 7行2列第i+1个图 plt.scatter(x_data[:,i], y_data, s = 10) # 横纵坐标和点的大小 plt.title(name_data[i]) plt.show() print(name_data[i], np.corrcoef(x_data[:,i], y_data)) i_ = [] for i in range(len(y_data)): if y_data[i] == 50: i_.append(i) # 存储房价等于50 的异常值下标 x_data = np.delete(x_data, [i], axis = 0) # 删除样本异常值数据 y_data = np.delete(y_data, [i], axis = 0) # 删除标签异常值 me_data = dataset.feature_names j_ = [] for i in range(13): if x_data[i] == 'RM' or 'PTRATIO' or 'LSTAT': continue j_.append(i) # 存储其他次要特征下标 x_data = np.delete(x_data, j_, axis = 1) # 在总特征中删除次要特征 print(np.shape(y_data)) print(np.shape(x_data)) X_train, X_test, y_train, y_test = train_test_split(x_data, y_data, random_state = 0, test_size = 0.20) ''' print(len(X_train)) print(len(X_test)) print(len(y_train)) print(len(y_test)) ''' from sklearn import preprocessing min_max_scaler = preprocessing.MinMaxScaler() X_train = min_max_scaler.fit_transform(X_train) X_test = min_max_scaler.fit_transform(X_test) #标签归一化的目的是什么呢，实验证明，归一化之后结果好了0.1左右 y_train = min_max_scaler.fit_transform(y_train.reshape(-1,1)) #转化为任意行一列 y_test = min_max_scaler.fit_transform(y_test.reshape(-1,1)) #转化为一列 lr = linear_model.LinearRegression(fit_intercept=True, normalize=False) lr.fit(X_train, y_train) lr_y_predict = lr.predict(X_test) from sklearn.metrics import r2_score score_lr = r2_score(y_test,lr_y_predict) from sklearn.linear_model import RidgeCV rr = RidgeCV(alphas=np.array([.1, .2, .3, .4])) rr.fit(X_train,y_train) rr_y_predict = rr.predict(X_test) score_rr = r2_score(y_test,rr_y_predict) score_rr lassr = linear_model.Lasso(alpha=.0001) lassr.fit(X_train,y_train) lassr_y_predict=lassr.predict(X_test) score_lassr = r2_score(y_test,lassr_y_predict) print(score_lassr) from sklearn.svm import SVR svr_rbf = SVR(kernel='rbf', C=100, gamma=0.1, epsilon=.1) #高斯核 svr_lin = SVR(kernel='linear', C=100, gamma='auto') #线性核 svr_poly = SVR(kernel='poly', C=100, gamma='auto', degree=3, epsilon=.1, coef0=1) #径向基核函数 svr_rbf_y_predict=svr_rbf.fit(X_train, y_train).predict(X_test) score_svr_rbf = r2_score(y_test,svr_rbf_y_predict) svr_lin_y_predict=svr_lin.fit(X_train, y_train).predict(X_test) score_svr_lin = r2_score(y_test,svr_lin_y_predict) svr_poly_y_predict=svr_poly.fit(X_train, y_train).predict(X_test) score_svr_poly = r2_score(y_test,svr_poly_y_predict) #绘制真实值和预测值对比图 def draw_infer_result(groud_truths,infer_results): title='Boston' plt.title(title, fontsize=24) x = np.arange(-0.2,2) y = x plt.plot(x, y) plt.xlabel('ground truth', fontsize=14) plt.ylabel('infer result', fontsize=14) plt.scatter(groud_truths, infer_results,color='green',label='training cost') plt.grid() plt.show() draw_infer_result(y_test,lr_y_predict) draw_infer_result(y_test,rr_y_predict) draw_infer_result(y_test,lassr_y_predict) draw_infer_result(y_test,svr_rbf_y_predict) draw_infer_result(y_test,svr_lin_y_predict) draw_infer_result(y_test,svr_poly_y_predict) print("score of lr:",score_lr) print("score of rr:",score_rr) print("score of lassr:",score_lassr) print("score of svr_rbf:",score_svr_rbf) print("score of svr_lin:",score_svr_lin) print("score of svr_poly:",score_svr_poly)