【免费】机器学习-其他1资源-CSDN文库

需积分: 0 135 浏览量 2022-08-03 19:09:27 上传评论收藏 649KB PDF 举报

资源推荐

资源详情

资源评论

特征工程

参考：

《深度了解特征工程》很长，也很详细 https://zhuanlan.zhihu.com/p/111296130

《机器学习（19）——特征工程》 https://www.jianshu.com/p/ebc04e52d7c7

前言：特征工程是机器学习的重点，直接影响着模型的好坏。

数据收集

业务的实现需要哪些数据？基于对业务规则的理解，尽可能多的找出对因变量有

1.

在进行机器学习之前，收集数据的过程中，我们主要按照以下规则找出我们所需要的

数据：

机器学习-其他

2021

年

4

月

5

日

23:16

分区计算机专业课的第

1

页

业务的实现需要哪些数据？基于对业务规则的理解，尽可能多的找出对因变量有

影响的所有自变量数据。

1.

数据可用性评估在获取数据的过程中，首先需要考虑的是这个数据获取的成本；

获取得到的数据，在使用之前，需要考虑一下这个数据是否覆盖了所有情况以及

这个数据的可信度情况。

2.

数据源

用户行为日志数据：记录的用户在系统上所有操作所留下来的日志行为数据业务

数据：

商品/物品的信息、用户/会员的信息......

第三方数据：爬虫数据、购买的数据、合作方的数据....

•

数据储存

一般情况下，用于后期模型创建的数据都是存在在本地磁盘、关系型数据库或者

一些相关的分布式数据存储平台的。本地磁盘 MySQL Oracle HBase HDFS

Hive

•

预处理

在数据预处理过程主要考虑两个方面，如下：选择数据处理工具：关系型数据库

或者Python 查看数据的元数据以及数据特征：一是查看元数据，包括字段解

释、数据来源等一切可以描述数据的信息；另外是抽取一部分数据，通过人工查

看的方式，对数据本身做一个比较直观的了解，并且初步发现一些问题，为之后

的数据处理做准备。

•

格式内容错误数据清洗

时间、日期、数值、半全角等显示格式不一致：直接将数据转换为一类格式即

可，该问题一般出现在多个数据源整合的情况下。

内容中有不该存在的字符：最典型的就是在头部、中间、尾部的空格等问题，这

种情况下，需要以半自动校验加半人工方式来找出问题，并去除不需要的字符。

内容与该字段应有的内容不符：比如姓名写成了性别、身份证号写成手机号等问

题。

•

去除不需要的数据

一般情况下，我们会尽可能多的收集数据，但是不是所有的字段数据都是可以应

用到模型构建过程的，也不是说将所有的字段属性都放到构建模型中，最终模型

的效果就一定会好，实际上来讲，字段属性越多，模型的构建就会越慢，所以有

时候可以考虑将不要的字段进行删除操作。在进行该过程的时候，要注意备份原

始数据。

•

关联性验证

如果数据有多个来源，那么有必要进行关联性验证，该过程常应用到多数据源合

并的过程中，通过验证数据之间的关联性来选择比较正确的特征属性，比如：汽

车的线下购买信息和电话客服问卷信息，两者之间可以通过姓名和手机号进行关

联操作，匹配两者之间的车辆信息是否是同一辆，如果不是，那么就需要进行数

•

数据清洗

分区计算机专业课的第

2

页

剩余10页未读，继续阅读

内容反馈

Crazyanti

粉丝: 19
资源: 303

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip