没有合适的资源?快使用搜索试试~ 我知道了~
机器学习 特征工程 Python sklearn
11 下载量 180 浏览量
2020-12-22
18:34:31
上传
评论
收藏 596KB PDF 举报
温馨提示


试读
8页
机器学习 特征工程 Python sklearn 本博客代码:Github_GDUT-Rp 1 特征工程 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,降维等。首次接触到sklearn,通常会被其丰富且方便的算法模型库吸引,但是这里的介绍的特征处理库也十分强大! 2 数据预处理 通过特征提取,我们能得到未经处理的特征,这时的特征可能有以下问题: 不属于同一量纲:即特征的规格不一样,不能够放在一起比较。无量纲化可以解决这一问题。 信息冗余:对于某些定量特征,其包含的有效信
资源推荐
资源详情
资源评论





















机器学习机器学习 特征工程特征工程 Python sklearn
机器学习机器学习 特征工程特征工程 Python sklearn
本博客代码:Github_GDUT-Rp
1 特征工程特征工程
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,降维等。首次接触到sklearn,通常会被其丰富且方便的算法模型
库吸引,但是这里的介绍的特征处理库也十分强大!
2 数据预处理数据预处理
通过特征提取,我们能得到未经处理的特征,这时的特征可能有以下问题:
不属于同一量纲:即特征的规格不一样,不能够放在一起比较。无量纲化可以解决这一问题。
信息冗余:对于某些定量特征,其包含的有效信息为区间划分,例如学习成绩,若只关心“及格”或“不及格”,那么需要将定量的考分,转化为“1”和“0”表示及格和未分类。二
值化可以解决这一问题。
定性特征不能直接使用:某些机器学习算法和模型只能接受定量特征的输入,那么需要将定性特征转换为定量特征。最简单的方式是为每一种定性值,但是这种方式过于灵
活,增加了调参的工作。通常使用哑编码的方式将定性特征为定量特征:假设有N种定性值,则将这一个特征扩展为N种特征,当原始特征值为第i种定性值时,第i个扩展特
征赋值为1,其他扩展特征赋值为0.哑编码的方式相比直接指定的方式,不用增加调参的工作,对于线性模型来说,使用哑编码后的特征可达到非线性的效果。
存在缺失值:缺失值需要补充。
信息利用率低:不同的机器学习算法和模型对数据中信息的利用是不同的,之前提到在线性模型中,使用对定性特征哑编码达到非线性的效果。类似地,对定量变量多项式
化,或者进行其他的转换,都能达到非线性的效果。
2.1 无量纲化无量纲化
无量纲化使不同规格的数据转换到同一规格。常见的无量纲化方法有标准和区间缩放法。标准化的前提是特征值服从正态分布,标准化后,其转换成标准正态分布。区间缩
放法利用了边界值信息,将特征的取值区间缩放到某个特点的范围,例如[0, 1]等。
2.1.1 标准化标准化
标准化需要计算特征的均值和标准差,公式表示为:
x′=x−XˉSx’=rac{x-ar{X}}{S}x′=Sx−Xˉ
使用preprocessing库的StandardScaler类对数据进行标准化:
资源评论


weixin_38677260
- 粉丝: 3
- 资源: 918
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


安全验证
文档复制为VIP权益,开通VIP直接复制
