python机器学习实验.zip资源-CSDN文库

共11个文件

py：10个

gitattributes：1个

需积分: 5 164 浏览量 2024-04-08 17:34:29 上传评论收藏 15KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

python机器学习实验.zip （11个子文件）

content

实验6 神经网络实操项目：肿瘤预测与分析（神经网络）.py 2KB

实验3 决策树实操项目2：顾客购买服装的分析与预测.py 1KB

实验1 线性回归实操项目1——糖尿病情预测.py 8KB

实验5 AdaBoost 实操项目：肿瘤预测（AdaBoost）.py 2KB

实验2 朴素贝叶斯和SVM 实操项目2 肿瘤分类与预测（SVM）.py 7KB

.gitattributes 66B

实验3 决策树实操项目1：肿瘤预测（决策树）.py 2KB

实验1 线性回归实操项目2——影厅观影人数预测（多变量线性回归）.py 3KB

实验4 K-Means 实操项目：不同含量果汁饮料的聚类.py 2KB

实验2 朴素贝叶斯和SVM 实操项目1 肿瘤分类与预测（朴素贝叶斯）.py 4KB

test.py 30B

################################################################### #一、加载糖尿病数据集diabetes，观察数据 ################################################################### #1.载入糖尿病情数据库diabetes，查看数据。 import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.datasets import load_diabetes#从sklearn数据集库导入diabetes数据 diabetes = load_diabetes() print(diabetes.keys()) print(diabetes.feature_names) #2.切分数据，组合成DateFrame数据，并输出数据集前几行，观察数据。 dm = pd.DataFrame(diabetes.data)#将data转换为DataFrame格式 print(dm.head(6)) dm_target = pd.DataFrame(diabetes.target) #将target转换为DataFrame格式 print(dm_target.head(6)) ################################################################### #二、基于线性回归对数据集进行分析 ################################################################### #3.查看数据集信息，从数据集中抽取训练集和测试集。 from sklearn.model_selection import train_test_split#导入数据划分包 # 把dm、dm_target转化为数组形式，以便于计算 X = np.array(dm.values) y = np.array(dm_target.values) # 以25%的数据构建测试样本，剩余作为训练样本 X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.25) X_train.shape,X_test.shape,y_train.shape,y_test.shape #4.建立线性回归模型，训练数据，评估模型。 from sklearn.linear_model import LinearRegression #使用LinearRegression库 lr=LinearRegression() #设定回归算法 lr.fit(X_train,y_train) #使用训练数据进行参数求解 print ('求解截距项为：',lr.intercept_) #打印截距的值 print ('求解系数为：',lr.coef_) #打印权重向量的值 #模型预测 y_hat = lr.predict(X_test) #对测试集的预测 #模型评估 #y_test与y_hat的可视化 plt.figure(figsize=(10,6)) #设置图片尺寸 t = np.arange(len(X_test)) #创建t变量 plt.plot(t, y_test, 'r', linewidth=2, label='y_test') #绘制y_test曲线 plt.plot(t, y_hat, 'g', linewidth=2, label='y_hat') #绘制y_hat曲线 plt.legend() #设置图例 plt.xlabel('test data') plt.ylabel('target') plt.show() ################################################################### #三、考察每个特征值与结果之间的关联性，观察得出最相关的特征 ################################################################### print(X_test) #5.考察每个特征值与结果之间的关系，分别以散点图展示。 max_i=0 tmp = 0 for i in range(len(diabetes.feature_names)): plt.figure(figsize=(10,6)) #绘制图片尺寸 plt.scatter(X_test[:,i],y_hat) #绘制散点图 plt.xlabel(diabetes.feature_names[i]) #设置X轴坐标轴标签 plt.ylabel('predicted') #设置y轴坐标轴标签 rho=np.corrcoef(X_test[:,i],y_hat[:,0])#求pearson相关系数 if abs(rho[0,1])>tmp: tmp = abs(rho[0,1]) max_i = i print(i,rho[0,1]) #思考：根据散点图结果对比，哪个特征值与结果之间的相关性最高？ ################################################################### #四、使用回归分析找出XX特征值与糖尿病的关联性，并预测出相关结果 ################################################################### # 6.把5中相关性最高的特征值提取，然后进行数据切分。 X = dm.iloc[:,max_i:max_i+1]#选取data中的最高的特征值变量 y = dm_target plt.scatter(X, y) #绘制散点图 plt.xlabel(u'ltg') #x轴标签 plt.ylabel(u'target') #y轴标签 plt.title(u'The relation of ltg and target') #标题 plt.show() # 把X、y转化为数组形式，以便于计算 X = np.array(X.values) y = np.array(y.values) # 以25%的数据构建测试样本，剩余作为训练样本 X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.25) X_train.shape,X_test.shape,y_train.shape,y_test.shape # 8.创建线性回归模型，进行线性回归模型训练。 lr=LinearRegression() #设定回归算法 lr.fit(X_train,y_train) #使用训练数据进行参数求解 # 9.对测试集进行预测，求出权重系数。 y_hat = lr.predict(X_test) #对测试集的预测 print ('求解截距项为：',lr.intercept_) #打印截距的值 print ('求解系数为：',lr.coef_) #打印权重向量的值 # 10.对预测结果进行评价，结果可视化。 #y_test与y_hat的可视化 plt.figure(figsize=(10,6)) #设置图片尺寸 t = np.arange(len(X_test)) #创建t变量 plt.plot(t, y_test, 'r', linewidth=2, label='y_test') #绘制y_test曲线 plt.plot(t, y_hat, 'g', linewidth=2, label='y_hat') #绘制y_hat曲线 plt.legend() #设置图例 plt.xlabel('test data') plt.ylabel('price') plt.show() plt.figure(figsize=(10,6)) #绘制图片尺寸 plt.plot(y_test,y_hat,'o') #绘制散点 plt.plot() plt.xlabel('ground truth') #设置X轴坐标轴标签 plt.ylabel('predicted') #设置y轴坐标轴标签 plt.grid() #绘制网格线 from sklearn import metrics from sklearn.metrics import r2_score # 拟合优度R2的输出方法一 print ("r2:",lr.score(X_test, y_test)) #基于Linear-Regression()的回归算法得分函数，来对预测集的拟合优度进行评价 # 拟合优度R2的输出方法二 print ("r2_score:",r2_score(y_test, y_hat)) #使用metrics的r2_score来对预测集的拟合优度进行评价 # 用scikit-learn计算MAE print ("MAE:", metrics.mean_absolute_error(y_test, y_hat)) #计算平均绝对误差 # 用scikit-learn计算MSE print ("MSE:", metrics.mean_squared_error(y_test, y_hat)) #计算均方误差 # # 用scikit-learn计算RMSE print ("RMSE:", np.sqrt(metrics.mean_squared_error(y_test, y_hat))) #计算均方根误差 # 6.把5中相关性最高的特征值提取，然后进行数据切分。 X = dm.iloc[:,2:3]#选取data中的最高的特征值变量 y = dm_target # 把X、y转化为数组形式，以便于计算 X = np.array(X.values) y = np.array(y.values) # 以25%的数据构建测试样本，剩余作为训练样本 X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.25) X_train.shape,X_test.shape,y_train.shape,y_test.shape # 8.创建线性回归模型，进行线性回归模型训练。 lr=LinearRegression() #设定回归算法 lr.fit(X_train,y_train) #使用训练数据进行参数求解 # 9.对测试集进行预测，求出权重系数。 y_hat = lr.predict(X_test) #对测试集的预测 print ('求解截距项为：',lr.intercept_) #打印截距的值 print ('求解系数为：',lr.coef_) #打印权重向量的值 # 10.对预测结果进行评价，结果可视化。 #y_test与y_hat的可视化 plt.figure(figsize=(10,6)) #设置图片尺寸 t = np.arange(len(X_test)) #创建t变量 plt.plot(t, y_test, 'r', linewidth=2, label='y_test') #绘制y_test曲线 plt.plot(t, y_hat, 'g', linewidth=2, label='y_hat') #绘制y_hat曲线 plt.legend() #设置图例 plt.xlabel('test data') plt.ylabel('price') plt.show() plt.figure(figsize=(10,6)) #绘制图片尺寸 plt.plot(y_test,y_hat,'o') #绘制散点 plt.plot() plt.xlabel('ground truth') #设置X轴坐标轴标签 plt.ylabel('predicted') #设置y轴坐标轴标签 plt.grid() #绘制网格线 # 拟合优度R2的输出方法一 print ("r2:",lr.score(X_test, y_test)) #基于Linear-Regression()的回归算法得分函数，来对预测集的拟合优度进行评价 # 拟合优度R2的输出方法二 print ("r2_score:",r2_score(y_test, y_hat)) #使用metrics的r2_score来对预测集的拟合优度进行评价 # 用scikit-learn计算MAE print ("MAE:", metrics.mean_absolute_error(y_test, y_hat)) #计算平均绝对误差 # 用scikit-learn计算MSE print ("MSE:", metrics.mean_squared_error(y_test, y_hat)) #计算均方误差 # # 用scikit-learn计算RMSE print ("RMSE:", np.sqrt(metrics.mean_squared_error(y_test, y_hat))) #计算均方根误差

评论收藏

内容反馈