【免费】机器学习+大数据知识总结资源-CSDN文库

机器学习

需积分: 0 155 浏览量 2022-12-10 14:48:25 上传评论 1 收藏 22.39MB DOCX 举报

资源详情

资源评论

机器学习部分

介绍一下常见的有监督以及无监督学习

有监督学习：线性判别分析、决策树、支持向量机、集成算法

无监督学习: 主成分分析、聚类、EM 算法

介绍一下逻辑回归

逻辑回归属于一种广义线性回归，但它是用来做分类的。传统回归模型输出变量的取

值为(-∞,+ ∞)，无法解释分类问题，逻辑回归引入激活函数，二分类时是 sigmoid，将输

出变量取值映射到(0,1)之间，看作是取正例的概率，一般设置阈值为 0.5，概率>0.5 认为是

正例，反之认为是负例。多分类时，激活函数为 softmax，将各分类得分做指数变换后进

行归一化处理，处理后的值为各分类概率，且其和为 1，预测结果为概率最大的类别。

介绍一下集成算法。

集成算法一共有三大类，分别为 bagging,boosting,stacking。

其中 bagging 是一种并联式的集成算法，它是将多个相同的弱学习器通过并联方式形

成强学习器，其中各个弱学习器是相互独立的，如果是分类问题，那么结果为各个弱分类

器的投票所得，如果是回归问题，其结果是各个弱学习器的平均所得，常见的 boosting 算

法有随机森林算法。

Boosting 是一种串联式的集成算法，它是将多个相同的弱学习器通过串联方式形成强

学习器，首先用第一个弱学习器对数据进行拟合，但单个弱学习器不能完整地解释信息，

会存在一定误差，故需要用第二个弱学习器对误差进行拟合，并以此类推，迭代下去，直

到误差收敛到设定的阈值，比如真实值为 1000，第一个弱学习器的预测值为 900，第二个

弱学习器的目标就是 1000-900 = 100，若第二个弱学习器的预测值为 90，第三个弱学习器

的目标就是 100-90 = 10，若第三个弱学习器的预测值为 9，且设定的阈值为 5，则误差为

10-9 = 1，已经达到了要求，故收敛。然后将前面三个弱学习器串联起来形成强学习器，

这就是 boosting 的全过程。常见的算法有 Adaboost、GBDT、XGBoost 与 lightGBM。

Stacking 就是将多个不同的弱学习器组合在一起，将他们的输出结果作为输入传入一

个新的学习器中去，输出结果作为最终结果。

介绍一下决策树与随机森林。

决策树：

决策树可以分为分类树和回归树，其中分类树有 ID3 树，ID4.5 树以及 CART 树，ID3

树中间节点的特征选择是根据信息增益，ID4.5 树中间节点的特征选择是根据信息增益率

（信息增益/特征自身的信息熵），CART 树中间节点的特征选择是根据 GINI 系数得到的，

并且是二叉树，其预测结果是根据各个叶子节点的值投票所得；回归树的中间节点的特征

选择依据为各个节点的方差，方差越小越好，其预测结果是根据各个叶子节点的值平均所

得。

随机森林：

随机森林是一种 bagging 集成算法，是由很多棵 CART 树组成的，每棵树相互独立，

构成每棵树样本是从总体中通过 boostrap 重抽样所得，特征为随机抽样所得，特征数一般

为总特征数的四分之三，决策树的数目可由网格搜索得到，最终形成随机森林，当进行分

类时，预测结果由各棵树结果投票决定，当进行回归时，预测结果由各棵树结果平均得到。

当不限制树的生长规模时，它可以一直向下生长，直到不能生长，这样即便对于每个

样本都进行很好的拟合，但明显与事实不符，出现了过拟合现象，就需要对其进行剪枝，

剪枝又分为预剪枝和后剪枝，

预剪枝是对模型设定最大深度、最大叶子节点数等阈值限制

树的生长，后剪枝则是通过一定的衡量标准即（损失+α*叶子节点数），（即损失函数变成

了原有损失函数+叶子节点树木的正则化限制）这样就既要求损失小，又要求叶子节点数

少。

介绍一下 Adaboost、GBDT、XGBoost 与 lightGBM

Adaboost：

Adaboost 是一种 boosting 集成算法，它是由多个弱学习器（决策树）串联而成，若进

行分类，则首先用一颗决策树对样本进行拟合，

对于此次预测错误的点，增加它的权

重，扩大这些样本点的影响

，将新样本输入到新的树中去，继续进行拟合和预测，以

此类推，直到迭代完毕，然后将这些决策树按照预测效果的好坏，为各棵树赋权，组

合成强学习器 Adaboost。

GBDT：

GBDT 称为梯度提升决策树，它是一种 boosting 集成算法，这里的

梯度其实就是损失

函数的负梯度

―

∂𝐿

∂𝑓

(

𝑥

)

，当损失函数为

𝐿

(

𝑦

―

𝑓

(

𝑥

)

时，负梯度恰好为残差

𝑦

―

𝑓

(

𝑥

)

，

第一次学习是用样本拟合一棵决策树，然后第二次学习就是对上一次产生的梯度进行

拟合，以此类推，直到迭代完毕，

最终将第一个决策树+后面的决策树乘以对应的步长

（学习率）得到最终的强学习器 GBDT，步长要求在 0 到 1 之间，步长越小迭代次数也

越多。

Xgboost

Xgboost 是一种 boosting 集成算法，是 GBDT 的改进方法，是通过

多个二叉决策

树串行而成

，GBDT 的核心在于后面的树拟合的是前面预测值的残差，这样可以一步步

逼近真值。然而，之所以拟合残差可以逼近到真值，是因为损失函数为平方损失，如

果换成是其他损失函数，使用残差将不再能够保证逼近真值。

XGBoost 的方法是，将

平方损失函数做泰勒展开到第二阶，使用前两阶作为改进的残差，并且对损失函数加

入了正则化惩罚项，限制了叶子节点个数以及叶子节点权重，限制了模型复杂度，避

免了过拟合

。传统 GBDT 使用的残差是泰勒展开到一阶的结果，因此，GBDT 是

XGBoost 的一个特例；此外 XGBoost 中每个决策树中间节点的选择为根据损失函数算

出的信息增益决定。

优点：

精度更高

： GBDT 只用到一阶泰勒展开，而 XGBoost 对损失函数进行了二阶泰勒

展开。XGBoost 引入二阶导一方面是为了增加精度，另一方面也是为了能够自定义损

失函数，二阶泰勒展开可以近似损失函数；

灵活性更强

： GBDT 以 CART 作为基分类器，XGBoost 不仅支持 CART 还支持线性

分类器，使用线性分类器的 XGBoost 相当于带 L1 和 L2 正则化项的逻辑斯蒂回归（分

类问题）或者线性回归（回归问题）。此外，XGBoost 工具支持自定义损失函数，只需

函数支持一阶和二阶求导；

正则化

： XGBoost 在目标函数中加入了正则项，用于控制模型的复杂度。正则项

里包含了树的叶子节点个数、叶子节点权重的范式。正则项降低了模型的方差，使学

习出来的模型更加简单，有助于防止过拟合，这也是 XGBoost 优于传统 GBDT 的一个

特性。

列抽样

： XGBoost 借鉴了随机森林的做法，支持列抽样（训练时可以只考虑一部

分特征），不仅能降低过拟合，还能减少计算。这也是 XGBoost 异于传统 GBDT 的一个

特性；

缺失值处理

：对于特征的值有缺失的样本，XGBoost 采用的稀疏感知算法可以自

动学习出它的分裂方向；

缺点：

计算量大、计算速度较慢、消耗内存。

LightGBM：

Lightgbm 算法是 xgboost 的改进算法，相较于 xgboost 算法，lightgbm 在保证了

模型效果的同时，

大大加快了优化拟合速度

。Lightgbm 采用了直方图算法，先将特征

值离散化成 K 个整数，然后构造宽度为 k 的直方图，将数据进行装桶，在每个 bin 中对

数据进行梯度累加和个数统计。分桶过后以每个 bin 为单位遍历的分裂点会少很多，

减少了计算量。同时在分裂时，采用直方图做差加速，比如左节点为一二两个 bin，那

么其他 bin 就分到另一个节点。使用单边梯度抽样算法(GOSS)，根据样本的权重信息

对样本进行抽样，减少梯度小的样本，在计算增益时为梯度小的样本增加一个常数进

行平衡，使得数据集分布不发生太大改变。如果多个指标之间互斥程度较大（大多数

数据不同时非零），可将这些指标进行捆绑降低特征维度。特征合并算法，其关键在于

原始特征能从合并的特征中分离出来。通过在特征值中加入一个偏置常量来解决。比

如要融合 A,B 两个特征，A 取值为[0,10]，B 取值为[0，20]，给 B 加上一个偏置 10，两

个变量就没有重回部分了，就可以放心融合了。用带深度限制的 Leaf-wise 算法去生

成树，每次分裂都找到增益最大的那个叶子节点进行分裂，而不是逐层分裂，

lightgbm 支持类别特征，不需要做独热码转换。避免独热码转换造成的特征稀疏问题，

训练效果较好。Lightgbm 支持特征并行，不同于 xgboost 对数据特征进行划分，在不

同的机器上进行分割，最后机器间进行通信，增加了额外复杂度，lightgbm 直接在同

一台机器上保存全部数据，然后分块并行处理得到最佳方案，节省了通信时间。另外

还支持数据并行，数据分块进行划分再组合到一起。基于投票的数据并行则进一步优

化数据并行中的通信代价，使通信代价变成常数级别。在数据量很大的时候，使用投

票并行的方式只合并部分效果好特征的直方图从而达到降低通信量的目的，可以得到

非常好的加速效果。

优点

速度更快

（1）LightGBM 采用了直方图算法将遍历样本转变为遍历直方图，极大的降低了时间复杂

度；

（2）LightGBM 在训练过程中采用单边梯度算法过滤掉梯度小的样本，减少了大量的计算；

（3）LightGBM 采用了基于 Leaf-wise 算法的增长策略构建树，每次分裂都找到增益最大

的那个叶子节点进行分裂，而不是逐层分裂，减少了很多不必要的计算量；

（4）LightGBM 采用优化后的特征并行、数据并行方法加速计算，当数据量非常大的时候

还可以采用投票并行的策略；

（5）LightGBM 对缓存也进行了优化，增加了缓存命中率；

内存更小

（1）LightGBM 采用了直方图算法将存储特征值转变为存储 bin 值，且不需要特征值到样

本的索引，降低了内存消耗；

（2）LightGBM 在训练过程中采用互斥特征捆绑算法减少了特征数量，降低了内存消耗。

缺点

（1）可能会长出比较深的决策树，产生过拟合。因此 LightGBM 在 Leaf-wise 之上增加了

一个最大深度限制，在保证高效率的同时防止过拟合；

（2）Boosting 族是迭代算法，每一次迭代都根据上一次迭代的预测结果对样本进行权重调

整，所以随着迭代不断进行，误差会越来越小，模型的偏差（bias）会不断降低，所以会

对噪点较为敏感；

（3）在寻找最优解时，依据的是最优切分变量，没有将最优解是全部特征的综合这一理念

考虑进去；

介绍一下支持向量机

支持向量机是一种二分类模型，它的基本模型定义在

特征空间上的间隔最大的线性分

类器

，间隔最大使它有别于感知机；支持向量机还包括核技巧，这使他成为实质上的非线

性分类器。支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问

题，也等价于正则化的合页损失函数的最大化问题。支持向量机的学习算法是求解凸二次

规划的最优化算法。

简单来说 SVM 就是，在特征空间上找到最优超平面使得数据的正负

样本间隔最大。

支持向量机的目标函数为：

为什么要引入核函数：

当样本在原始空间线性不可分时，可将样本从原始空间映射到一个更高维的特征空间，

使得样本在这个特征空间内线性可分。常见的核函数有多项式核函数和高斯核函数，

多项式核函数

：多项式核函数可以实现将低维的输入空间映射到高纬的特征空间，但

是多项式核函数的参数多，当多项式的阶数比较高的时候，核矩阵的元素值将趋于无穷大

或者无穷小，计算复杂度会大到无法计算。

高斯核函数

：高斯径向基函数是一种局部性强的核函数，其可以将一个样本映射到一

个更高维的空间内，该核函数是应用最广的一个，无论大样本还是小样本都有比较好的性

能，而且其相对于多项式核函数参数要少，因此大多数情况下在不知道用什么核函数的时

候，优先使用高斯核函数。

支持向量机如何避免过拟合：（软间隔）

解决过拟合的办法是为 SVM 引入了松弛变量：

因此 SVM 公示中的目标函数也需要相应修改，加上松弛变量的平方和，并求最小值。新

的目标函数为：

这样就达到一个平衡：既希望松弛变量存在以解决异常点问题，

又不希望松弛变量太大导致分类效果太差。

介绍一下 K-means 聚类算法

k-means 算法是一种非监督算法，kmeans 算法又名 k 均值算法,K-means 算法中的 k 表

示的是聚类为 k 个簇，means 代表取每一个聚类中数据值的均值作为该簇的中心，或者称

为质心，即用每一个的类的质心对该簇进行描述。

其算法思想大致为：第一步：先从样本集中随机选取 k 个样本作为簇中心，并计算所

有样本点与这 k 个“簇中心”的距离，对于每一个样本点，将其划分到与其距离最近的“簇中

心”所在的簇中。第二步：对于新的簇计算均值作为簇的新的“簇中心”，并将相比其他簇距

离 ci 簇最近的样本点划分到此簇所在的类中。以此一直迭代，直至达到迭代次数或者误差

达到设定的阈值。

优点：

1.理论成熟，思想简单，既可以用来做分类也可以用来做回归。

2.可用于非线性分类。

3.适用于样本容量比较大的类域的自动分类。

剩余91页未读，继续阅读

评论收藏

内容反馈

机器学习+大数据知识总结

评论0

最新资源

机器学习+大数据知识总结

评论0

最新资源

相关推荐

我的数据竞赛经验：本人多次机器学习与大数据竞赛Top5的经验总结，满满的干货，拿好不谢

大数据，算法总结

本人多次机器学习与大数据竞赛Top5的经验总结，满满的干货，拿好不谢.zip

大数据基础实战理论知识总结

java大数据面试基础v3.docx

人工智能与机器学习简介.pptx

大数据基础知识入门.pdf

java大数据面试基础v2.docx

大数据关键技术(1).doc

大数据全样而非抽样原理-一文带你了解什么是大数据.pdf

大数据代码分享.docx

iOS 系统化知识总结.zip

什么是大数据开发？大数据开发要学什么？一个Java转行过程和经历.pdf

实践：《 API，机器学习与人工智能》课程的实践心得

人工智能读书笔记.doc

人工智能项目资料-北京航空航天大学大数据高精尖中心自然语言处理研究团队开展了智能问答的研究与应用总结。.zip

JAVA面试题及知识点整理

ChatGPT教程（终极版）最全整理

Neural Networks from Scratch in Python学习资料

博客中Kmeans以及FCM算法数据（免积分）

hugging face的models-openai-clip-vit-large-patch14文件夹

神经网络回归预测--气温数据集

XGBoost+LightGBM+LSTM-光伏发电量预测

Mathwork+Matlab+编程手册

Stable-Diffusion WEBUI 简体中文语言包（2023.05.30更新）

中文短信数据集-带标签

时间序列预测模型实战案例(Xgboost)(Python)(机器学习)包括时间序列预测和时间序列分类，点击即可运行！

亚博K210模型训练部署

Plecs电力电子仿真PLECS41.64 电力系统仿真软件免安装版本