【免费】housing.zip资源-CSDN文库

共11个文件

xml：4个

png：2个

py：1个

需积分: 0 151 浏览量 2023-11-27 14:53:07 上传评论收藏 247KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

housing.zip （11个子文件）

housing

pic

bar.png 138KB

heatmap.png 140KB

dataset

housing.csv 48KB

.idea

.name 11B

vcs.xml 188B

workspace.xml 6KB

misc.xml 189B

inspectionProfiles

profiles_settings.xml 174B

.gitignore 190B

notebook.py 3KB

论文.docx 22KB

import matplotlib.pyplot as plt import pandas as pd import seaborn as sns from sklearn.ensemble import RandomForestRegressor from sklearn.linear_model import LinearRegression from sklearn.model_selection import train_test_split, GridSearchCV from sklearn.preprocessing import StandardScaler from sklearn.metrics import mean_squared_error, make_scorer import warnings warnings.filterwarnings("ignore") import tensorflow as tf from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense from tensorflow.keras.callbacks import EarlyStopping if __name__ == '__main__': column_names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV'] data = pd.read_csv('./dataset/housing.csv', header=None, delimiter=r'\s+', names=column_names) print(data.head()) print(data.info()) print(data.shape) print(data.isnull().sum()) print(data.duplicated().sum()) print(data.corr()) fig_hm = sns.heatmap(data.corr()) fig_hm.get_figure().savefig("./pic/heatmap", dpi=400) plt.cla() fig_bar = sns.barplot(x='CHAS', y='MEDV', data=data) fig_bar.get_figure().savefig("./pic/bar", dpi=400) plt.cla() print(data.info()) # 认为CHAS和MEDV之间的相关性较弱，但事实表明，靠近查尔斯河边界的城镇MEDV较高，因此MEDV受到CHAS特征的影响 # 将数据集拆分为特征和目标 X = data.drop('MEDV', axis=1) y = data['MEDV'] # 规范数据 ss = StandardScaler() X = ss.fit_transform(X) # 在对训练集和测试集进行相同的预处理后，将其分成训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=1) print(X_train.shape, X_test.shape) param_grid = { 'n_estimators': [100, 200, 300], 'max_depth': [None, 5, 10], 'min_samples_split': [2, 5, 10], 'min_samples_leaf': [1, 2, 4] } grid = GridSearchCV( estimator=RandomForestRegressor(), param_grid=param_grid, scoring={'mse': 'neg_mean_squared_error', 'accuracy': 'accuracy'}, refit='accuracy', cv=5, n_jobs=-1 ) grid.fit(X_train, y_train) print(f"随机森林模型最佳参数: {grid.best_params_}") print(f"随机森林模型最佳MSE分数值: {grid.best_score_}") y_pred = grid.predict(X_test) mse = mean_squared_error(y_test, y_pred) print(f"随机森林模型 MSE: {mse}") model = tf.keras.Sequential([ # 输入隐藏层 tf.keras.layers.Dense(units=13, activation='relu', input_shape=(13,)), tf.keras.layers.Dense(units=10, activation="relu"), # 输出层 tf.keras.layers.Dense(units=1, activation='linear') ]) model.compile(optimizer='sgd', loss='mean_squared_error', metrics=['mse']) print(model.summary()) # 防止过度拟合 cb = EarlyStopping( monitor='val_loss', min_delta=0.00001, patience=20, verbose=1, mode='auto', baseline=None, restore_best_weights=False ) # 训练模型 history = model.fit(X_train, y_train, validation_split=0.2, epochs=100, callbacks=cb) mse, mae = model.evaluate(X_test, y_test) print(f"神经网络模型 MSE: {mse}")

评论收藏

内容反馈