没有合适的资源?快使用搜索试试~ 我知道了~
七种常用特征工程技术
5星 · 超过95%的资源 10 下载量 128 浏览量
2021-01-27
14:19:44
上传
评论 1
收藏 171KB PDF 举报
温馨提示
试读
3页
本文来自于csdn, 本文只提供一些简单的特征工程技巧,希望能够在你以后的分析中提供帮忙。当在做数据挖掘和数据分析时,数据是所有问题的基础,并且会影响整个工程的流程。相比一些复杂的算法,如何灵活的处理好数据经常会取到意想不到的效益。而处理数据不可或缺的需要使用到特征工程。简单的说,特征工程是能够将数据像艺术一样展现的技术。为什么这么说呢?因为好的特征工程很好的混合了专业领域知识、直觉和基本的数学能力。但是最有效的数据呈现其实并不涉及任何的数据运算。本质上来说,呈现给算法的数据应该能拥有基本数据的相关结构或
资源详情
资源评论
资源推荐
七种常用特征工程技术七种常用特征工程技术
当在做数据挖掘和数据分析时,数据是所有问题的基础,并且会影响整个工程的流程。相比一些复杂的算法,如何灵活的处理
好数据经常会取到意想不到的效益。而处理数据不可或缺的需要使用到特征工程。
一、什么是特征工程
简单的说,特征工程是能够将数据像艺术一样展现的技术。为什么这么说呢?因为好的特征工程很好的混合了专业领域知识、
直觉和基本的数学能力。但是最有效的数据呈现其实并不涉及任何的数据运算。
本质上来说,呈现给算法的数据应该能拥有基本数据的相关结构或属性。当你做特征工程时,其实是将数据属性转换为数据特
征的过程,属性代表了数据的所有维度,在数据建模时,如果对原始数据的所有属性进行学习,并不能很好的找到数据的潜在
趋势,而通过特征工程对你的数据进行预处理的话,你的算法模型能够减少受到噪声的干扰,这样能够更好的找出趋势。事实
上,好的特征甚至能够帮你实现使用简单的模型达到很好的效果。
但是对于特征工程中引用的新特征,需要验证它确实提高的预测的准确度,而不是加入了一个无用的特征,不然只会增加算法
运算的复杂度。
本文只提供一些简单的特征工程技巧,希望能够在你以后的分析中提供帮忙。
二、常用方法
1. 表示时间戳
时间戳属性通常需要分离成多个维度比如年、月、日、小时、分钟、秒钟。但是在很多的应用中,大量的信息是不需要的。比
如在一个监督系统中,尝试利用一个’位置+时间‘的函数预测一个城市的交通故障程度,这个实例中,大部分会受到误导只通
过不同的秒数去学习趋势,其实是不合理的。并且维度'年'也不能很好的给模型增加值的变化,我们可能仅仅需要小时、日、
月等维度。因此当我们在呈现时间的时候,试着保证你所提供的所有数据是你的模型所需要的。
并且别忘了时区,假如你的数据源来自不同的地理数据源,别忘了利用时区将数据标准化。
2. 分解类别属性
一些属性是类别型而不是数值型,举一个简单的例子,由{红,绿、蓝}组成的颜色属性,最常用的方式是把每个类别属性转换
成二元属性,即从{0,1}取一个值。因此基本上增加的属性等于相应数目的类别,并且对于你数据集中的每个实例,只有一个
是1(其他的为0),这也就是独热(one-hot)编码方式(类似于转换成哑变量)。
如果你不了解这个编码的话,你可能会觉得分解会增加没必要的麻烦(因为编码大量的增加了数据集的维度)。相反,你可能
会尝试将类别属性转换成一个标量值,例如颜色属性可能会用{1,2,3}表示{红,绿,蓝}。这里存在两个问题,首先,对于一个
数学模型,这意味着某种意义上红色和绿色比和蓝色更“相似”(因为|1-3| > |1-2|)。除非你的类别拥有排序的属性(比如铁路
线上的站),这样可能会误导你的模型。然后,可能会导致统计指标(比如均值)无意义,更糟糕的情况是,会误导你的模
型。还是颜色的例子,假如你的数据集包含相同数量的红色和蓝色的实例,但是没有绿色的,那么颜色的均值可能还是得到
2,也就是绿色的意思。
能够将类别属性转换成一个标量,最有效的场景应该就是只有两个类别的情况。即{0,1}对应{类别1,类别2}。这种情况下,并
不需要排序,并且你可以将属性的值理解成属于类别1或类别2的概率。
3.分箱/分区
有时候,将数值型属性转换成类别呈现更有意义,同时能使算法减少噪声的干扰,通过将一定范围内的数值划分成确定的块。
举个例子,我们预测一个人是否拥有某款衣服,这里年龄是一个确切的因子。其实年龄组是更为相关的因子,所有我们可以将
年龄分布划分成1-10,11-18,19-25,26-40等。而且,不是将这些类别分解成2个点,你可以使用标量值,因为相近的年龄组表现
出相似的属性。
weixin_38705788
- 粉丝: 6
- 资源: 907
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论10