LightGBM最强解析，从算法原理到代码实现~.rar资源-CSDN文库

共1个文件

pdf：1个

版权申诉

NLP

机器学习

178 浏览量 2023-10-18 18:01:36 上传评论收藏 1.6MB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

LightGBM最强解析，从算法原理到代码实现~.rar （1个子文件）

LightGBM最强解析，从算法原理到代码实现~.pdf 1.74MB

LightGBM最强解析，从算法原理到代码实现~

2⽉18⽇

以下⽂章来源于Microstrong ，作者Microstrong

⼣⼩瑶的卖萌屋

Microstrong

Microstrong(⼩强)同学喜欢研究数据结构与算法、机器学习、深度学习等相关领域，公众号⼀直以来坚持原创，分享⾃⼰…

⼀只⼩狐狸带你解锁NLP/ML/DL秘籍

正⽂来源：Microstrong

1 LightGBM简介

GBDT (Gradient Boosting Decision Tree) 是机器学习中⼀个⻓盛不衰的模型，其主要思想是利⽤弱分类器（决策树）迭代

训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。GBDT不仅在⼯业界应⽤⼴泛，通常被⽤于多分类、点

击率预测、搜索排序等任务；在各种数据挖掘竞赛中也是致命武器，据统计Kaggle上的⽐赛有⼀半以上的冠军⽅案都是基于

GBDT。⽽LightGBM（Light Gradient Boosting Machine）是⼀个实现GBDT算法的框架，⽀持⾼效率的并⾏训练，并且具

有更快的训练速度、更低的内存消耗、更好的准确率、⽀持分布式可以快速处理海量数据等优点。

1.1 LightGBM提出的动机

常⽤的机器学习算法，例如神经⽹络等算法，都可以以mini-batch的⽅式训练，训练数据的⼤⼩不会受到内存限制。⽽

GBDT在每⼀次迭代的时候，都需要遍历整个训练数据多次。如果把整个训练数据装进内存则会限制训练数据的⼤⼩；如果

不装进内存，反复地读写训练数据⼜会消耗⾮常⼤的时间。尤其⾯对⼯业级海量的数据，普通的GBDT算法是不能满⾜其需

求的。

LightGBM提出的主要原因就是为了解决GBDT在海量数据遇到的问题，让GBDT可以更好更快地⽤于⼯业实践。

1.2 XGBoost的缺点及LightGBM的优化

（1）XGBoost的缺点

在LightGBM提出之前，最有名的GBDT⼯具就是XGBoost了，它是基于预排序⽅法的决策树算法。这种构建决策树的算法基

本思想是：⾸先，对所有特征都按照特征的数值进⾏预排序。其次，在遍历分割点的时候⽤的代价找到⼀个特

征上的最好分割点。最后，在找到⼀个特征的最好分割点后，将数据分裂成左右⼦节点。

这样的预排序算法的优点是能精确地找到分割点。但是缺点也很明显：⾸先，空间消耗⼤。这样的算法需要保存数据的特征

值，还保存了特征排序的结果（例如，为了后续快速的计算分割点，保存了排序后的索引），这就需要消耗训练数据两倍的

内存。其次，时间上也有较⼤的开销，在遍历每⼀个分割点的时候，都需要进⾏分裂增益的计算，消耗的代价⼤。最后，对

cache优化不友好。在预排序后，特征对梯度的访问是⼀种随机访问，并且不同的特征访问的顺序不⼀样，⽆法对cache进

⾏优化。同时，在每⼀层⻓树的时候，需要随机访问⼀个⾏索引到叶⼦索引的数组，并且不同特征访问的顺序也不⼀样，也

会造成较⼤的cache miss。

（2）LightGBM的优化

为了避免上述XGBoost的缺陷，并且能够在不损害准确率的条件下加快GBDT模型的训练速度，lightGBM在传统的GBDT算

法上进⾏了如下优化：

基于Histogram的决策树算法。

单边梯度采样 Gradient-based One-Side Sampling(GOSS)：使⽤GOSS可以减少⼤量只具有⼩梯度的数据实例，这样

在计算信息增益的时候只利⽤剩下的具有⾼梯度的数据就可以了，相⽐XGBoost遍历所有特征值节省了不少时间和空

间上的开销。

互斥特征捆绑 Exclusive Feature Bundling(EFB)：使⽤EFB可以将许多互斥的特征绑定为⼀个特征，这样达到了降维的

⽬的。

带深度限制的Leaf-wise的叶⼦⽣⻓策略：⼤多数GBDT⼯具使⽤低效的按层⽣⻓ (level-wise) 的决策树⽣⻓策略，因为

它不加区分的对待同⼀层的叶⼦，带来了很多没必要的开销。实际上很多叶⼦的分裂增益较低，没必要进⾏搜索和分

裂。LightGBM使⽤了带有深度限制的按叶⼦⽣⻓ (leaf-wise) 算法。

直接⽀持类别特征(Categorical Feature)

⽀持⾼效并⾏

Cache命中率优化

下⾯我们就详细介绍以上提到的lightGBM优化算法。

2 LightGBM的基本原理

2.1 基于Histogram的决策树算法

（1）直⽅图算法

Histogram algorithm应该翻译为直⽅图算法，直⽅图算法的基本思想是：先把连续的浮点特征值离散化成个整数，同时构

造⼀个宽度为的直⽅图。在遍历数据的时候，根据离散化后的值作为索引在直⽅图中累积统计量，当遍历⼀次数据后，直

⽅图累积了需要的统计量，然后根据直⽅图的离散值，遍历寻找最优的分割点。

图：直⽅图算法

直⽅图算法简单理解为：⾸先确定对于每⼀个特征需要多少个箱⼦（bin）并为每⼀个箱⼦分配⼀个整数；然后将浮点数的

范围均分成若⼲区间，区间个数与箱⼦个数相等，将属于该箱⼦的样本数据更新为箱⼦的值；最后⽤直⽅图（#bins）表

⽰。看起来很⾼⼤上，其实就是直⽅图统计，将⼤规模的数据放在了直⽅图中。

我们知道特征离散化具有很多优点，如存储⽅便、运算更快、鲁棒性强、模型更加稳定等。对于直⽅图算法来说最直接的有

以下两个优点：

内存占⽤更⼩：直⽅图算法不仅不需要额外存储预排序的结果，⽽且可以只保存特征离散化后的值，⽽这个值⼀般⽤

位整型存储就⾜够了，内存消耗可以降低为原来的。也就是说XGBoost需要⽤位的浮点数去存储特征值，并

⽤位的整形去存储索引，⽽ LightGBM只需要⽤位去存储直⽅图，内存相当于减少为；

图：内存占⽤优化为预排序算法的1/8

计算代价更⼩：预排序算法XGBoost每遍历⼀个特征值就需要计算⼀次分裂的增益，⽽直⽅图算法LightGBM只需要计

算次（可以认为是常数），直接将时间复杂度从降低到，⽽我

们知道。

当然，Histogram算法并不是完美的。由于特征被离散化后，找到的并不是很精确的分割点，所以会对结果产⽣影响。但在

不同的数据集上的结果表明，离散化的分割点对最终的精度影响并不是很⼤，甚⾄有时候会更好⼀点。原因是决策树本来就

是弱模型，分割点是不是精确并不是太重要；较粗的分割点也有正则化的效果，可以有效地防⽌过拟合；即使单棵树的训练

误差⽐精确分割的算法稍⼤，但在梯度提升（Gradient Boosting）的框架下没有太⼤的影响。

（2）直⽅图做差加速

LightGBM另⼀个优化是Histogram（直⽅图）做差加速。⼀个叶⼦的直⽅图可以由它的⽗亲节点的直⽅图与它兄弟的直⽅图

做差得到，在速度上可以提升⼀倍。通常构造直⽅图时，需要遍历该叶⼦上的所有数据，但直⽅图做差仅需遍历直⽅图的k

个桶。在实际构建树的过程中，LightGBM还可以先计算直⽅图⼩的叶⼦节点，然后利⽤直⽅图做差来获得直⽅图⼤的叶⼦

节点，这样就可以⽤⾮常微⼩的代价得到它兄弟叶⼦的直⽅图。

图：直⽅图做差

注意： XGBoost 在进⾏预排序时只考虑⾮零值进⾏加速，⽽ LightGBM 也采⽤类似策略：只⽤⾮零特征构建直⽅图。

2.2 带深度限制的 Leaf-wise 算法

在Histogram算法之上，LightGBM进⾏进⼀步的优化。⾸先它抛弃了⼤多数GBDT⼯具使⽤的按层⽣⻓ (level-wise) 的决策

树⽣⻓策略，⽽使⽤了带有深度限制的按叶⼦⽣⻓ (leaf-wise) 算法。

XGBoost 采⽤ Level-wise 的增⻓策略，该策略遍历⼀次数据可以同时分裂同⼀层的叶⼦，容易进⾏多线程优化，也好控制

模型复杂度，不容易过拟合。但实际上Level-wise是⼀种低效的算法，因为它不加区分的对待同⼀层的叶⼦，实际上很多叶

⼦的分裂增益较低，没必要进⾏搜索和分裂，因此带来了很多没必要的计算开销。

图：按层⽣⻓的决策树

LightGBM采⽤Leaf-wise的增⻓策略，该策略每次从当前所有叶⼦中，找到分裂增益最⼤的⼀个叶⼦，然后分裂，如此循

环。因此同Level-wise相⽐，Leaf-wise的优点是：在分裂次数相同的情况下，Leaf-wise可以降低更多的误差，得到更好的精

度；Leaf-wise的缺点是：可能会⻓出⽐较深的决策树，产⽣过拟合。因此LightGBM会在Leaf-wise之上增加了⼀个最⼤深度

的限制，在保证⾼效率的同时防⽌过拟合。

图：按叶⼦⽣⻓的决策树

2.3 单边梯度采样算法

Gradient-based One-Side Sampling 应该被翻译为单边梯度采样（GOSS）。GOSS算法从减少样本的⻆度出发，排除⼤部

分⼩梯度的样本，仅⽤剩下的样本计算信息增益，它是⼀种在减少数据量和保证精度上平衡的算法。

AdaBoost中，样本权重是数据重要性的指标。然⽽在GBDT中没有原始样本权重，不能应⽤权重采样。幸运的是，我们观察

到GBDT中每个数据都有不同的梯度值，对采样⼗分有⽤。即梯度⼩的样本，训练误差也⽐较⼩，说明数据已经被模型学习

得很好了，直接想法就是丢掉这部分梯度⼩的数据。然⽽这样做会改变数据的分布，将会影响训练模型的精确度，为了避免

此问题，提出了GOSS算法。

GOSS是⼀个样本的采样算法，⽬的是丢弃⼀些对计算信息增益没有帮助的样本留下有帮助的。根据计算信息增益的定义，

梯度⼤的样本对信息增益有更⼤的影响。因此，GOSS在进⾏数据采样的时候只保留了梯度较⼤的数据，但是如果直接将所

有梯度较⼩的数据都丢弃掉势必会影响数据的总体分布。所以，GOSS⾸先将要进⾏分裂的特征的所有取值按照绝对值⼤⼩

降序排序（XGBoost⼀样也进⾏了排序，但是LightGBM不⽤保存排序后的结果），选取绝对值最⼤的个数据。

然后在剩下的较⼩梯度数据中随机选择个数据。接着将这个数据乘以⼀个常数，这样算法就会

更关注训练不⾜的样本，⽽不会过多改变原数据集的分布。最后使⽤这个数据来计算信息增益。下图是

GOSS的具体算法。

图：单边梯度采样算法

2.4 互斥特征捆绑算法

⾼维度的数据往往是稀疏的，这种稀疏性启发我们设计⼀种⽆损的⽅法来减少特征的维度。通常被捆绑的特征都是互斥的

（即特征不会同时为⾮零值，像one-hot），这样两个特征捆绑起来才不会丢失信息。如果两个特征并不是完全互斥（部分

情况下两个特征都是⾮零值），可以⽤⼀个指标对特征不互斥程度进⾏衡量，称之为冲突⽐率，当这个值较⼩时，我们可以

选择把不完全互斥的两个特征捆绑，⽽不影响最后的精度。互斥特征捆绑算法（Exclusive Feature Bundling, EFB）指出如

果将⼀些特征进⾏融合绑定，则可以降低特征数量。这样在构建直⽅图时的时间复杂度从变为

，这⾥指特征融合绑定后特征包的个数，且远⼩于。

针对这种想法，我们会遇到两个问题：

怎么判定哪些特征应该绑在⼀起（build bundled）？

怎么把特征绑为⼀个（merge feature）？

（1）解决哪些特征应该绑在⼀起

将相互独⽴的特征进⾏绑定是⼀个 NP-Hard 问题，LightGBM的EFB算法将这个问题转化为图着⾊的问题来求解，将所有的

特征视为图的各个顶点，将不是相互独⽴的特征⽤⼀条边连接起来，边的权重就是两个相连接的特征的总冲突值，这样需要

绑定的特征就是在图着⾊问题中要涂上同⼀种颜⾊的那些点（特征）。此外，我们注意到通常有很多特征，尽管不是

％相互排斥，但也很少同时取⾮零值。如果我们的算法可以允许⼀⼩部分的冲突，我们可以得到更少的特征包，进

⼀步提⾼计算效率。经过简单的计算，随机污染⼩部分特征值将影响精度最多，是每个绑定中的最

评论收藏

内容反馈

版权申诉

QuietNightThought

粉丝: 1w+
资源: 633

LightGBM最强解析，从算法原理到代码实现~.rar

Lightgbm.rar

LightGBM最强解析，从算法原理到代码实现~.pdf

lightgbm算法原理.pptx

LightGBM-MATLAB.rar_foundyt4_lightGBM_matlab lightgbm_termeaa_轻量

XGBoost与LightGBM文本分类源代码及数据集.zip

LightGBM 论文阅读总结1

基于lightgbm的新闻推荐算法.zip

LightGBM.LightGBM.LightGBM

lightgbm.whl

lightgbm+_randomforest_lightGBM_源码.zip

lightGBM预测notebook代码

DataInsight_code_机器学习_lstmcode_lightGBM_lightgbm代码_

PyPI 官网下载 | lightgbm-2.1.0.tar.gz

LightGBM中的GBDT实现

GBDT算法实现框架LightGBM.zip

一种基于LightGBM机器学习算法的用户年龄及性别预测方法.pdf

机器学习-lightgbm转pmml

LightGBM-2.0_lightGBM_

R语言lightGBM包Win10下编译可用

YOLOv8-deepsort 实现智能车辆目标检测+车辆跟踪+车辆计数

YOLOv8网络结构图，自制visio文件，yolov8.vsds，需要的自取，在原有的基础上直接改就行了

yolov8(2023年8月版本),已经下好yolov8s.pt和yolov8n.pt

Transformer模型实现长期预测并可视化结果（附代码+数据集+原理介绍）

社交平台上经济类话题的文章热度信息，数据是真实的，但不是真实日期

行人跌倒数据集（VOC格式）

YOLOV5 + 双目相机实现三维测距（新版本）

Unet眼底血管图像分割数据集+代码+模型+系统界面+教学视频.zip

全新的SOTA模型YOLOv9

YOLOV5口罩检测数据集+代码+模型 2000张标注好的数据+教学视频.zip

最新资源