【免费】[]-2022-07-10XGBoost如何用2GB内存训练100GB的数据！.pdf资源-CSDN文库

需积分: 0 80 浏览量更新于2023-12-11 收藏 88KB PDF 举报

kaggle竞赛宝典，机器学习，人工智能咨询，kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询kaggle竞赛宝典，机器学习，人工智能咨询标题中的内容虽然没有给出具体的标题，但从描述和标签来看，我们可以推断这是一篇关于如何在有限内存条件下，使用XGBoost进行大规模数据训练的文章。XGBoost是一种高效的梯度提升框架，尤其适用于处理大数据集。它在机器学习和人工智能领域，特别是Kaggle竞赛中广泛应用。描述中重复提到了“kaggle竞赛宝典，机器学习，人工智能咨询”，这表明该文章可能提供了解决实际竞赛中数据处理和模型训练问题的策略。在标签中，“kaggle AI 机器学习深度学习”进一步确认了讨论的主题，即如何在Kaggle竞赛中利用AI技术，尤其是机器学习中的XGBoost，进行深度学习任务。从部分内容来看，文章介绍了两种方法来处理大内存数据： 1. **批量加载数据**：通过`IterLoadForDMatrix`类，我们可以看到作者是如何创建一个迭代器来分批次加载数据的。这里，`batch_size`参数用于控制每次加载的数据量，避免一次性加载整个数据集导致内存溢出。在`next()`函数中，数据被分割成多个批次，然后传递给`xgb.DeviceQuantileDMatrix`，这是一个优化过的数据结构，可以有效地处理数据并支持GPU训练。`max_bin`参数用于设置特征的桶数，以减少内存消耗。 2. **外部数据迭代读取**：另一个例子是`Iterator`类，它适用于CPU训练。这个类从一系列的SVM文件中读取数据，每次迭代加载一个文件，使用`load_svmlight_file`函数解析文件内容，然后传递给`xgboost.DMatrix`。这种方式允许我们按需加载数据，而不是一次性全部加载到内存中。这两种方法都是XGBoost处理大数据的有效策略，通过分批加载或外部迭代读取，可以使得训练过程在有限的内存资源下运行。这些技术对于参加Kaggle竞赛或者处理大型数据集的项目非常有用，因为它们能够确保模型训练的可行性，同时避免内存不足的问题。总结来说，这篇文章提供了关于如何使用XGBoost在内存受限的情况下训练大规模数据的实用技巧，特别是针对Kaggle竞赛和机器学习项目。通过数据迭代器和适当的数据结构，可以有效地管理和处理超过内存限制的数据集，使得训练过程更加高效和可行。对于那些需要处理大量数据的AI和机器学习实践者来说，这些知识和技巧是不可或缺的。

XGBoost如何用2GB内存训练100GB的数据！

class IterLoadForDMatrix(xgb.core.DataIter):

def __init__(self, df=None, features=None, target=None, batch_size=256*1

024):

self.features = features

self.target = target

self.df = df

self.batch_size = batch_size

self.batches = int( np.ceil( len(df) / self.batch_size ) )

self.it = 0 # set iterator to 0

super().__init__()

def reset(self):

'''Reset the iterator'''

self.it = 0

def next(self, input_data):

'''Yield next batch of data.'''

if self.it == self.batches:

return 0 # Return 0 when there's no more batch.

a = self.it * self.batch_size

b = min( (self.it + 1) * self.batch_size, len(self.df) )

dt = pd.DataFrame(self.df.iloc[a:b])

input_data(data=dt[self.features], label=dt[self.target]) #, weight=

dt['weight'])

self.it += 1

return 1

调用方法（此种方式比较适合GPU训练）：

Xy_train = IterLoadForDMatrix(train.loc[train_idx], FEATURES, 'target')

dtrain = xgb.DeviceQuantileDMatrix(Xy_train, max_bin=256)

参考文档：

下载后可阅读完整内容，剩余2页未读，立即下载

资源推荐

资源评论

毕业小助手

粉丝: 2761
资源: 5583

[] - 2022-07-10 XGBoost如何用2GB内存训练100GB的数据！.pdf

最新资源

[] - 2022-07-10 XGBoost如何用2GB内存训练100GB的数据！.pdf

NRBO牛顿-拉夫逊算法特征选择并同时优化XGBOOST参数数据分类预测（Matlab完整源码和数据)

XGBoost介绍.pdf

XGBoost原理解析.pdf

机器学习概论课程实验-基于python实现LR,SVM,XGBoost,KMeans,LDA算法源码(参考学习).zip

BFO-XGBoost鳑鲏鱼优化算法优化XGBoost分类预测（Matlab完整源码和数据）

DCS-XGBoost差异化创意搜索算法优化XGBoost分类预测（Matlab完整源码和数据）

xgboost-0.82-py2.py3-none-win_amd64.whl

NRBO-XGBoost牛顿-拉夫逊优化算法优化XGBoost分类预测（Matlab完整源码和数据）

xgboost-master

xgboost-whl安装包（包含32位和64位）

xgboost gpu版本 xgboost.dll

( 8-xgboost.pdf )

Git-2.15.0.0-64-bit.exe及xgboost.dll，安装xgboost必备

MushroomClassification--xgboost训练数据.zip.zip

xgboost-eXtreme Gradient Boosting.pdf

pyspark-xgboost.zip

xgboost-1.7.5-py3-none-win-amd64

xgboost.dll

8-xgboost.7z8-xgboost.7z

xgboost-details.zip_xgboost_xgboost源码_机器学习

jpmml-xgboost-executable-1.5.jar

Python库 | neptune-xgboost-0.9.13.tar.gz

xgboost-2.1.2-cp312-cp312-win_arm64.whl

xgboost.dll gpu_enable 2019最新版

jpmml-xgboost-executable-1.3-SNAPSHOT.jar

xgboost.dll和xgboost.lib 2020/5/26

xgboost.dll Not GPU-enabled 2019最新版

xgboost-1.6.1-cp311-cp311-win_amd64.whl

YOLOv8-deepsort 实现智能车辆目标检测+车辆跟踪+车辆计数

Transformer模型实现长期预测并可视化结果（附代码+数据集+原理介绍）

最新资源