没有合适的资源?快使用搜索试试~ 我知道了~
关于机器学习的一些知识点
资源详情
资源评论
资源推荐
一.简介
1.明确任务,收集数据
2.数据预处理和特征工程
3.模型训练
4.模型评估与超参数调优
5.模型融合
6.模型应用
二.线性回归
需要了解:(P39)
特征变换:
1 y=df['sales']
2 X=df.drop(['sales','Unnamed:0'],axis=1)
随机选择其中 80%的样本作为训练数据,其余 20%的数据作为测试样本
3 X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=33, test_size=0.2)
用训练数据训练最小二乘线性回归(无正则)、岭回归(L2 正则)和 Lasso(L1 正
则),注意岭回归和 Lasso 的正则超参数调优,性能指标为 RMSE:
比较上述三种模型得到的各特征的回归系数,以及各模型在测试集上的性能。
回归系数:岭回归、Lasso 得到的回归系数绝对值均比最小二乘线性回归小,即起到了
权值收缩的效果(不全,具体回归系数分析看 P36 页最上行)
性能:最小二乘线性回归在训练集上的性能最好,但在测试集上的性能最差; Lasso 模
型在测试集上的性能最好
4 # 导入 pandas 工具包
5 import pandas as pd
6 # 读取数据
7 dpath="./data/"
8 df=pd.read_csv(dpath+"Advertising.csv")
9 # 从原始数据中分离输入特征 x 和输出 y
10 y=df['sales']
11 X=df.drop(['sales','Unnamed:0'],axis=1)
12 # 将数据分割为训练数据与测试数据,随机采样 20%的数据构建测试样本,其余作为训练样本
13 from sklearn.model_selection import train_test_split
14 X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=33, test_size=0.2)
15
16 # 方法一:
17 # 最小二乘线性回归
18 from sklearn.linear_model import LinearRegression
19 # (1)使用默认配置初始化学习器实例
20 lr=LinearRegression()
菜鸟一枚cnk
- 粉丝: 10
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0