【免费】数据预处理与特征工程fullversion1资源-CSDN文库

需积分: 0 84 浏览量 2022-08-03 12:36:52 上传评论收藏 2.58MB PDF 举报

数据预处理与特征工程在人工智能领域中至关重要，它们是构建高效机器学习模型的基础步骤。获取数据是整个流程的第一步，数据来源可以是数据库、文件、网络爬虫或者其他数据接口。确保数据的质量和完整性是关键，因为后续的所有分析都将基于这些数据。接下来，数据预处理包括了多个环节： 1. **数据清洗**：处理缺失值，如在描述中提到的，数据可能存在录入错误，例如将10误录为0，或者某些特征值用特定值（如0或空）表示缺失。对于缺失值，可以采取填充（impute）策略，如使用平均值、中位数、众数，或者通过插值、回归等方法进行估算。 2. **数据转换**：无量纲化和标准化是常见的数据预处理手段，用于消除数据量纲影响，如使用Z-score标准化或Min-Max缩放。这使得不同特征具有可比性，有助于模型训练。 3. **数据编码**：对于分类型特征，需要进行编码处理。例如，One-Hot编码（哑变量编码）将类别特征转换为多个二进制变量，逻辑回归等模型能处理这种格式。对于有序分类特征，可以考虑使用ordinal编码。 4. **数据集成与变换**：处理连续型特征时，可能会用到二值化（binarization）和分段（binning）。二值化将连续值转化为两个类别，例如设置阈值进行切割；分段则将连续值分为多个区间，每个区间代表一个新特征。特征工程是提升模型性能的关键步骤，它涉及特征选择、构造和转换： 1. **Filter方法**：这是一种基于统计度量的特征选择方法，如方差过滤、相关性过滤和互信息法。方差过滤通过设定阈值剔除低变异性特征；相关性过滤通常结合卡方检验或F检验，去除高度相关的特征；互信息法衡量特征与目标变量之间的依赖程度。 2. **Embedded方法**：这类方法在模型训练过程中进行特征选择，如Lasso回归和Ridge回归通过正则化项实现特征权重的稀疏化，从而达到选择重要特征的目的。 3. **Wrapper方法**：通过反复训练模型并评估性能来选择最佳特征子集，如递归特征消除（RFE）和基于搜索的特征选择。在实际工作中，数据预处理和特征工程的复杂性远超上述概述，需要根据具体问题和数据特性灵活处理。此外，选择合适的工具也很重要，例如Python的scikit-learn库提供了丰富的数据预处理和特征工程函数，方便开发者进行操作。持续学习和实践是提高数据分析技能的关键。理解数据的背景和问题本质，结合理论知识与实践经验，才能避免类似课程描述中的尴尬情况，真正发挥出数据的价值。

资源详情

资源评论

资源推荐

菜菜的scikit-learn课堂03

sklearn中的数据预处理和特征工程

小伙伴们晚上好~o(

￣▽￣

)ブ

我是菜菜，这里是我的sklearn课堂第三期，今晚的直播内容是数据预处理和特征工程~

我的开发环境是Jupyter lab，所用的库和版本大家参考：

Python 3.7.1（你的版本至少要3.4以上

Scikit-learn 0.20.0 （你的版本至少要0.19

Numpy 1.15.3, Pandas 0.23.4, Matplotlib 3.0.1, SciPy 1.1.0

请扫码进群领取课件和代码源文件，扫描二维码后回复”K"就可以进群哦~

Tsai Tsai

菜菜的sklearn课堂直播间： https://live.bilibili.com/12582510

sklearn专题第三期：数据预处理和特征工程

1 概述

1.1 数据预处理与特征工程

想象一下未来美好的一天，你学完了菜菜的课程，成为一个精通各种算法和调参调库的数据挖掘工程师了。某一天

你从你的同事，一位药物研究人员那里，得到了一份病人临床表现的数据。药物研究人员用前四列数据预测一下最

后一数据，还说他要出差几天，可能没办法和你一起研究数据了，希望出差回来以后，可以有个初步分析结果。于

是你就看了看数据，看着很普通，预测连续型变量，好说，导随机森林回归器调出来，调参调呀调，MSE很小，跑

了个还不错的结果。

几天后，你同事出差回来了，准备要一起开会了，会上你碰见了和你同事在同一个项目里工作的统计学家。他问起

你的分析结果，你说你已经小有成效了，统计学家很吃惊，他说：“不错呀，这组数据问题太多，我都分析不出什

么来。”

你心里可能咯噔一下，忐忑地回答说：“我没听说数据有什么问题呀。”

统计学家：“第四列数据很坑爹，这个特征的取值范围是1~10，0是表示缺失值的。而且他们输入数据的时候出错，

很多10都被录入成0了，现在分不出来了。”

你：”......“

统计学家：”还有第二列和第三列数据基本是一样的，相关性太强了。“

你：”这个我发现了，不过这两个特征在预测中的重要性都不高，无论其他特征怎样出错，我这边结果里显示第一

列的特征是最重要的，所以也无所谓啦。“

统计学家：“啥？第一列不就是编号吗？”

你：“不是吧。”

统计学家：“哦我想起来了！第一列就是编号，不过那个编号是我们根据第五列排序之后编上去的！这个第一列和

第五列是由很强的联系，但是毫无意义啊！”

老血喷了一屏幕，数据挖掘工程师卒。

这个悲惨又可爱的故事来自《数据挖掘导论》，虽然这是故事里的状况十分极端，但我还是想把这段对话作为今天

这章的开头，博大家一笑（虽然可能听完就泪流满面了）。在过去两周，我们已经讲了两个算法：决策树和随机森

林，我们通过决策树带大家认识了sklearn，通过随机森林讲解了机器学习中调参的基本思想，现在可以说，只要

上过前面两堂课的，人人都会调随机森林和决策树的分类器了，而我呢，也只需要跟着各大机器学习书籍的步伐，

给大家一周一个算法带着讲解就是了。如果这样的话，结果可能就是，大家去工作了，遇到了一个不那么靠谱的同

事，给了你一组有坑的数据，最后你就一屏幕老血吐过去，牺牲在数据行业的前线了。

数据不给力，再高级的算法都没有用。

我们在课堂中给大家提供的数据，都是经过层层筛选，适用于课堂教学的——运行时间短，预测效果好，没有严重

缺失等等问题。尤其是sklearn中的数据，堪称完美。各大机器学习教材也是如此，都给大家提供处理好的数据，

这就导致，很多人在学了很多算法之后，到了现实应用之中，发现模型经常就调不动了，因为现实中的数据，离平

时上课使用的完美数据集，相差十万八千里。所以我决定，少讲一两个简单的算法，为大家专门拿一堂课来讲解建

Tsai Tsai

菜菜的sklearn课堂直播间： https://live.bilibili.com/12582510

sklearn专题第三期：数据预处理和特征工程

数据挖掘的五大流程：

1. 获取数据

2. 数据预处理

数据预处理是从数据中检测，纠正或删除损坏，不准确或不适用于模型的记录的过程

可能面对的问题有：数据类型不同，比如有的是文字，有的是数字，有的含时间序列，有的连续，有的间断。

也可能，数据的质量不行，有噪声，有异常，有缺失，数据出错，量纲不一，有重复，数据是偏态，数据量太

大或太小

数据预处理的目的：让数据适应模型，匹配模型的需求

3. 特征工程：

特征工程是将原始数据转换为更能代表预测模型的潜在问题的特征的过程，可以通过挑选最相关的特征，提取

特征以及创造特征来实现。其中创造特征又经常以降维算法的方式实现。

可能面对的问题有：特征之间有相关性，特征和标签无关，特征太多或太小，或者干脆就无法表现出应有的数

据现象或无法展示数据的真实面貌

特征工程的目的：1) 降低计算成本，2) 提升模型上限

4. 建模，测试模型并预测出结果

5. 上线，验证模型效果

模之前的流程，数据预处理和特征工程。这样大家即可以学到数据挖掘过程中很重要但是却经常被忽视的一些步

骤，也可以不受课堂的限制，如果自己有时间，可以尝试在真实数据上建模。



1.2 sklearn中的数据预处理和特征工程

sklearn中包含众多数据预处理和特征工程相关的模块，虽然刚接触sklearn时，大家都会为其中包含的各种算法的

广度深度所震惊，但其实sklearn六大板块中有两块都是关于数据预处理和特征工程的，两个板块互相交互，为建

模之前的全部工程打下基础。

模块preprocessing：几乎包含数据预处理的所有内容

模块Impute：填补缺失值专用

模块feature_selection：包含特征选择的各种方法的实践

Tsai Tsai

菜菜的sklearn课堂直播间： https://live.bilibili.com/12582510

sklearn专题第三期：数据预处理和特征工程

剩余30页未读，继续阅读

评论收藏

内容反馈

啊看看

粉丝: 37
资源: 323

数据预处理与特征工程 full version1

评论0

最新资源

数据预处理与特征工程 full version1

评论0

数据预处理及特征工程

数据预处理和特征工程-checkpoint.ipynb

监督学习-特征工程-1.什么是特征工程&数值预处理

03数据预处理和特征工程资料与代码.7z

逻辑回归 full version1

决策树 full version1

Mastering OpenCV with Practical Computer Vision Projects (full version)

XLSReadWriteII version 5.20.39 xe7 full source .rar

LINGO8.rar

机器学习与算法源代码11： 特征工程之数据预处理.zip

特征工程-数据预处理思维导图

sklearn机器学习笔记：数据预处理与特征工程.pdf

ChatGPT技术的数据预处理与特征工程技巧.docx

04.数据预处理——处理分类型数据&连续型特征：二值化和分段.ipynb

xgboost 代码 + 课件,xgboost实例,Python

SmartAdmin1.8.7.5的RubyOnRails版本

autotools动态库

doxygen配置说明[定义].pdf

python------数据预处理与特征工程----相关数据集

ChatGPT技术的输入预处理与特征工程方法.docx

学生分析：数据可视化，数据预处理，功能工程和ML建模

谈逆向工程中数据点预处理程序系统的开发.doc

使用 python 预处理 lending club 贷款数据并构造特征.zip

机器学习小组第二期第三周：简单的数据预处理和特征工程

data_preprocessing:该存储库与所有数据预处理和功能工程有关

随波逐流CTF编码工具 V6.5 20250115

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

最新资源

机器学习与算法源代码11：特征工程之数据预处理.zip