【免费】机器学习的各个部分的一些基础实验代码资源-CSDN文库

需积分: 0 172 浏览量 2022-06-10 07:17:05 上传评论收藏 99KB DOCX 举报

资源详情

资源评论

资源推荐

一．简介

1.明确任务，收集数据

2.数据预处理和特征工程

3.模型训练

4.模型评估与超参数调优

5.模型融合

6.模型应用

二．线性回归

需要了解：（P39）

特征变换：

1 y=df['sales']

2 X=df.drop(['sales','Unnamed:0'],axis=1)

随机选择其中 80%的样本作为训练数据，其余 20%的数据作为测试样本

3 X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=33, test_size=0.2)

用训练数据训练最小二乘线性回归（无正则）、岭回归（L2 正则）和 Lasso（L1 正

则），注意岭回归和 Lasso 的正则超参数调优，性能指标为 RMSE：

比较上述三种模型得到的各特征的回归系数，以及各模型在测试集上的性能。

回归系数：岭回归、Lasso 得到的回归系数绝对值均比最小二乘线性回归小，即起到了

权值收缩的效果（不全，具体回归系数分析看 P36 页最上行）

性能：最小二乘线性回归在训练集上的性能最好，但在测试集上的性能最差； Lasso 模

型在测试集上的性能最好

4 # 导入 pandas 工具包

5 import pandas as pd

6 # 读取数据

7 dpath="./data/"

8 df=pd.read_csv(dpath+"Advertising.csv")

9 # 从原始数据中分离输入特征 x 和输出 y

10 y=df['sales']

11 X=df.drop(['sales','Unnamed:0'],axis=1)

12 # 将数据分割为训练数据与测试数据，随机采样 20%的数据构建测试样本，其余作为训练样本

13 from sklearn.model_selection import train_test_split

14 X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=33, test_size=0.2)

15

16 # 方法一：

17 # 最小二乘线性回归

18 from sklearn.linear_model import LinearRegression

19 # (1)使用默认配置初始化学习器实例

20 lr=LinearRegression()

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余9页未读，立即下载

评论0

内容反馈

菜鸟一枚cnk

粉丝: 10
资源: 1

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip