基于k-means聚类分析，XGBoost模型，熵权法的隐形资助模型.zip资源-CSDN文库

共11个文件

xlsx：9个

pdf：2个

需积分: 5 48 浏览量 2024-02-03 20:13:14 上传评论收藏 3.75MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

基于k-means聚类分析，XGBoost模型，熵权法的隐形资助模型.zip （11个子文件）

ahao111

附件9 问题2待补全标签数据 - 第一学年.xlsx 22KB

附件123的数据特征提取.xlsx 1.79MB

附件4-7数据特征提取.xlsx 127KB

附件9 问题3待补全标签数据 - 第二学年.xlsx 102KB

贫困程度前八十名学生的资助方案.xlsx 14KB

附件9 问题2待补全标签数据 - 第二学年.xlsx 21KB

附件9 问题3待补全标签数据 -第三学年.xlsx 89KB

C题.pdf 107KB

附件9 问题2待补全标签数据 -第三学年.xlsx 21KB

论文.pdf 1.73MB

附件9 问题3待补全标签数据 - 第一学年.xlsx 21KB

基于餐厅消费数据的隐形资助研究-XGBoost 模型

摘要

隐形资助是通过大数据挖掘的形式，找准家庭经济困难学生的行为或经济状况特

征，隐形认定（识别）经济相对困难学生群体，并通过隐形实施的方式给予适度的资助

补偿，助力教育公平的实现。随着大数据技术的发展，我们可以通过学生在餐厅的海量

消费数据来对学生的贫困程度进行预测，进而确定对贫困群体的资助方案。

针对问题 1，我们采用 k-means 聚类算法，将学生群体划分为 k 类，通过比较不同

k 值下误差平方和以及轮廓系数的取值，最终确定 k 取 3，其中类别 1 是消费水平低但

消费最稳定的群体，类别 3 是消费水平高但消费最不稳定的群体，类别 2 的消费水平和

消费稳定度都居中。为了反映三个群体的消费行为特征变化规律和饮食种类变化规律，

我们从附件中提取出单次消费均价，早、中、晚消费均价，全年消费次数等十余种特征

量，我们分别计算了三个群体三年统计周期内其消费特征的均值，导入 matlab 中绘制了

变化图表体现其变化。总体而言，三个群体三年的消费水平和消费稳定性都有所提高，

消费食品种类变多，饮食结构变的更加合理。

针对问题二，我们构建 XGBoost 模型并使用启发式优化算法来确定模型最佳参数，

以此来预测附件 9 中学生的贫困度。首先将附件 1-3 提取到的特征量合并到附件 8 和 9

中，再通过启发式优化算法确定参数绘制网格参数，然后以附件 8 的数据为训练集来训

练 XGBoost 模型，最后对附件 9 中的预测集进行预测。最终可以确定附件 9 中学生在

三学年内的贫困度。

针对问题三：我们以具有多个预测特征量的嵌套 XGBoost 模型为基础，首先将附

件 4-7 中提取到的特征量结合 vlookup 函数与附件 8 和 9 合并，以附件 8 内 250 个学生

为训练集，使 train_test_split 函数划分数据为训练集和测试集，比例为 8:2，随机种子

为 42, 再训练 XGboost 模型并且使用 5 折交叉验证和 r2 分数作为评估指标，返回训练

分数，确定最佳参数后预测并补全附件 8 本身，将误差控制在合理范围内并且增加特征

量，然后同理以附件 8 为训练集训练 XGboost 模型并预测附件 9 中三学年内学生的贫

困度。

针对问题 4，我们采用熵权法计算第三学年附件 4-7 中学生各项指标所占的权重，

并计算附件 4-7 中每个同学的综合评价分数，综合评价分数越高，其贫困度越大，对 301

名学生进行排序，取前 80 名即为最终的资助对象。为了确定资金分配方案，我们假设

所获资助金与贫困度之间存在线性关系，基于此假设，我们将资助金额进行线性插值，

得到资助金额与我们综合评价分数之间的函数关系，由此可确定最终的资助金额分配方

案。

关键字：隐形资助 k-means 聚类 XGBoost 交叉验证综合评价线性插值

一、问题重述

1 . 1 题目背景知识

在高校资助工作中，判断并精准资助家庭经济困难的学生是极为关键的。而通过大

数据挖掘的方式，我们可以实现隐形识别和资助困难学生的目标，并且可以保护学生的

隐私，有助于实现教育公平的目标。同时随着数据存储与管理技术的日益完善，学生的

部分消费数据，例如在餐厅的三餐消费，可以被记录并保存，而学生的经济状况可以通

过餐厅的消费金额、消费品类和消费次数等信息来间接反映，所以我们通过大数据挖掘

的方式挖掘有效数据，分析学生的消费特征，建立相关模型，最后实现隐形精准资助，

在保护学生隐私、维护教育公平的前提下达成对困难学生的精准资助，促进教育公平的

实现。

1 . 2 问题重述

问题 1：针对附件 0-7 提供的数据建立模型，挖掘不同代表性群体，并定量分析该

群体三学年的主要消费行为特征变化规律、饮食种类变化规律等。注意建模前需对数据

进行必要预处理 (如删除不相关数据、缺失补全、特征提取等)。

问题 2：除以上信息外，附件 8 给出部分同学第一学年后经其它方式认定的贫困程

度等级 (粗粒度)，其中等级 2 准确 (可能不全)、其它等级认定可能有少量偏差。请建立

数学模型依据消费行为 (附件 1-3) 预测贫困程度，补全附件 9 (不要改动附件 9 的已有数

据及顺序) 并作为附件提交；进一步结合第 1 问研究结论预测该组同学第二、第三学年

的贫困程度隐形认定等级，分析相关变化。

问题 3: 在第 2 问基础上，结合附件 4-7 饮食种类数据，改进你们的预测模型，比较

分析相关同学的预测结果变化情况。

问题 4：通过以上贫困生本质特征挖掘，构建差异化 (细粒度) 资助额度分配算法，

并以第三学年为例给出具体结果：对象为附件 4-7 中涉及的同学、资助总金额 10 万、资

助人员 80 名，并对资助结果的公平合理性进行评估。。

二、问题分析模型假设

2 . 1 问题分析

针对问题 1，我们采用 k-means 聚类算法，根据附件 1 第一学年的数据我们进行聚

类分析，分析最佳的聚类个数，然后计算这几个聚类的消费特征和饮食种类的均值，绘

制图表，体现若干群体三年来的变化规律；

针对问题 2，我们选择构建 XGBoost 模型，同时使用 K-fold 交叉验证法和遗传算法

优化模型精度，利用附件 8 的数据进行模型训练，对附件 9 中的同学进行预测，并且对

全体同学第二、三年的贫困程度进行预测。

针对问题 3，我们新加入了附件 4-7 的饮食种类数据，完善了 XGBoost 模型，并重

新用模型进行了预测，得到了更为准确的预测数据。

针对问题 4，我们通过熵权法求得各指标所占的权重，对附件 4-7 中学生的贫困程

度进行综合评价，并进行排序，算出综合评价得分与所获资助金之间的线性关系，合理

分配了资助金。

2 . 2 模型假设

·学生在食堂消费的数据真实可信，不考虑同学带饭，代刷卡等极少数特殊情况；

·由于市场波动等因素的影响，食品价格不可能保持不变，因此我们以食品在统计

周期内的平均价格作为食品价格的衡量值；

·由其它方式认定的贫困程度等级得到的附件 8 中数据真实可信，不存在严重的评

估误差 (如将不困难生列为困难生或将困难生列为不困难生)；

·假设熵权法得到的权重是客观合理的，可以真实反映各个指标在贫困程度评价中

的重要性；

·假设资助完全遵照学生经济条件，遵从客观规律，按照贫困指标分配资助金额，

不考虑其他干扰因素 (如学生的学习成绩，社会关系等)

·在进行机器学习迭代时，不考虑数据采样偏差、标签偏差等系统偏差和随机误差，

认为最终得到的 XGBoost 模型具有较强的可信度。

三、数据预处理

由于题目给出的附件数据量大，数据冗余度大，无效信息多，还存在部分数据缺失，

为此，我们首先进行数据预处理：我们发现附件 1-3 三年消费记录中存在大量的消费记

录为 0，推测这些天很有可能是周末或假期或是收到了新冠疫情的影响，因此，我们规

定：若某一天消费为 0 的同学占比超过 85%，我们就将这一天的数据删除，得到初步的

数据表。

附件 4-7 对于部分同学的消费记录进行分析，我们发现存在一些数据没有记录相应

的食物种类，由于食物种类对我们分析饮食规律价值较大，故我们删除了这部分为空的

数据。

四、问题一-基于 k-means 聚类算法模型的群体挖掘

4 . 1 k-means 聚类算法模型的简介

K-means 算法是一种典型的基于划分的聚类算法，也是一种无监督学习算法。他的

基本思路是对给定的样本集，用欧式距离作为衡量数据对象间相似度的指标，相似度与

数据对象间的距离成反比，相似度越大，距离越小。预先指定初始聚类数以及初始聚类

中心，按照样本之间的距离大小，将样本集划分为若干个簇，根据数据对象与聚类中心

之间的相似度，不断更新聚类中心的位置，不断降低类簇的误差平方和（Sum of Squared

Error, SSE），当 SSE 不再变化时，聚类结束，从而得到最终结果。而空间中数据对象与

聚类中心间的欧氏距离计算公式为：

d(X, C

) =

j=1

− C

)

(1)

其中，X 为数据对象；C

为第 i 个聚类中心；m 为数据对象的维度；X

，C

为 X 和 C

的第 j 个属性值。

整个数据集的误差平方和 SSE 计算公式为：

SSE =

i=1

X∈C

|d(X − C

(2)

其中，SSE 的大小表示聚类结果的好坏；k 为簇的个数。

4 . 2 k-means 聚类算法挖掘不同代表性群体

要使用 k-means 算法，首先需要确定衡量学生消费的特征量，以下是经数据处理得

到的几个消费特征的特征量。我们将其分为两类：一类反映学生的消费水平，称为消费

水平特征量，该特征值可为后面分析贫困度作参考；另一类反映学生的饮食规律，称为

规律特征值。

1. 单次消费均价：将学生三年的消费总费用除以天数得到单次消费单价，该特征值

可大致衡量学生的消费水平；

2. 早、中、晚餐消费均价：分别将每位学生 3 年早、中、晚的消费总额除以相应天

数，得到单餐消费均价，该指标不仅可以衡量对应早中晚的消费水平，亦可一定程度上

反映学生早中晚的食物选择偏好，进而反映其饮食规律；

3. 全年消费次数：一定程度上反映学生的用餐消费频率；

4. 早、中、晚餐年消费次数：该指标反映了学生在统计周期内的吃早、午、晚餐的

次数，反映学生的饮食规率；

5. 全年消费波动性：计算全年的消费金额的标准差来表示，该指标反映学生年度消

费金额的波动情况，衡量其消费稳定性；

6. 日均消费极差：分别得到每日三餐消费的最大值和最小值，将两者作差，取年平

均，该指标可反映日均消费波动幅度；

由附录 1-3 提取每个学生三年内消费特征的有效数据，导入 matlab 中进行 k-means

聚类分析，分别将聚类个数设为 1-10，分别计算其 SSE, 得到 SSE 随聚类个数变化的统

计图：

图 1 k-means 聚类数对比图

在此处我们运用肘部法则可以得到取聚类等于 3 时最为合适。但为求数据更加精

确，即为了使我们得到的簇中，簇内尽量紧密，簇间尽量远离，我们引入轮廓系数。

其公式表达如下：

s = b −

max(a, b)

(3)

其中 a 代表同簇样本到彼此间距离的均值，b 代表样本到除自身所在簇外的最近簇的样

本的均值，s 取值在 [-1, 1] 之间。

判断：轮廓系数范围在 [-1,1] 之间。该值越大，越合理。s

接近 1，则说明样本 i 聚

类合理；s

接近-1，则说明样本 i 更应该分类到另外的簇；若 s

近似为 0，则说明样本

i 在两个簇的边界上。所有样本的 s

的均值称为聚类结果的轮廓系数，是该聚类是否合

理、有效的度量。使用轮廓系数 (silhouette coefficient) 来确定，选择使系数较大所对应

的 k 值

根据对轮廓系数计算的相关算法，我们绘制了不同 k 值时的轮廓系数变化曲线。

评论收藏

内容反馈

码农阿豪

粉丝: 1w+
资源: 1754

基于k-means聚类分析，XGBoost模型，熵权法的隐形资助模型.zip

基于K-means聚类算法的图像分割及其MATLAB实现

基于 K-means 聚类算法的图像区域分割.zip

论文研究-基于k-means聚类算法的研究 .pdf

国信证券_20161205_金融工程专题研究：基于k-means聚类的多因子特征检验.pdf

K-means聚类分析（Iris数据集）模式识别

K-Means聚类算法java实现.pdf

k-means聚类分析

K-means聚类分析与python实现

算法改进基于python实现K-Means聚类算法及其改进(K-mean++)源码+详细代码注释.zip

毕业设计：基于噪声数据集处理的K-means聚类算法实现.zip

论文研究-基于K-means聚类的数字半色调算法.pdf

详解Java实现的k-means聚类算法

孤立点分析在审计疑点发现中的应用探讨——基于K-Means聚类算法的Python实现.pdf

（带注释）基于K-means聚类算法的图像区域分割.zip

基于K-means聚类算法的住院费用数据挖掘.pdf

基于K-Means聚类算法的HDMA数据挖掘方法.pdf

实验五 K-Means聚类算法.ipynb

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

李飞飞自传 我看见的世界 The World I see

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

农村公交与异构无人机协同配送优化

4个亲测好用的ChatGPT4渠道

学术海报模板+论文科研+研究生

北森能力测评题库.zip

最新资源

李飞飞自传我看见的世界 The World I see