数据科学实验
XGBoost(Xtreme Gradient Boosting)是用于分类和回归的非常强大的工具。它是梯度提升决策树算法的实现。在梯度提升决策树算法中,我们经历了反复构建新模型并将其组合为整体模型的循环。为了进行预测,我们可以添加之前所有模型的预测,并使用这些预测来计算新的误差,构建下一个模型并将其添加到集合中。用于读取数据的环境是使用库建立的。核心xgboost函数要求数据为矩阵。它具有内置的数据类型DMatrix,特别擅长高效地存储和访问稀疏矩阵。加载数据后,将其混洗以将其分为训练和测试数据集。要训练模型,需要满足以下条件:•使用哪些训练数据•训练轮次•目标函数是过度拟合:当模型过于依赖训练集中的随机性/噪声来进行分类时,可能无法很好地扩展到新的数据集。改善模型性能的方法•解决班级不平衡的事实•训练更多回合最后一步是解释创建的模型。 Xgboost具有许多内置函数,