2018年美国大学生数学建模竞赛C题,题目与能源规划和管理相关,要求参赛者使用数学建模和数据分析的方法解决能源分配、预测和政策制定的问题。下面将详细介绍相关的知识点。
1. 数据预处理:
在处理任何数据分析问题之前,首先需要对数据进行预处理。由于XLS数据表中存在冗余数据,这可能是指重复的记录或者无关紧要的字段。剔除冗余数据是数据分析中的基础工作。数据单位不一致是常见的问题,需要将数据进行标准化,即转换为统一的标准格式,例如统一为无量纲的标准化数据。处理数据的一个常用方法是使用机器学习算法进行分类,例如knn(k近邻)算法和k-means聚类算法。这些算法能够帮助我们识别数据中的模式和分类,尽管具体代码在这里不详细展开。
2. 因子分析:
因子分析是一种统计方法,用于研究数据中变量的内在结构,即提取出可以解释数据变异的因子。在Task1的A部分中,建立档案时需要剔除对应年、对应州、对应资源为0的数据。剔除这些数据后,使用因子分析对各个权重进行排序,这有助于后续的评价和决策过程。
3. 聚类分析:
聚类分析是将数据集中的数据点按照相似性归为几个类别,是一种无监督学习方法。在Task1的B部分中,给定了地理条件、工业生产、人口和气候四个部分,可以使用聚类分析将数据按照这些维度进行分类,以识别相似的州或者能源。分类时可以根据能源的代码进行,例如,前两个字母或前三个字母相同者归为一类。
4. 最短距离问题和TOPSIS方法:
最短距离问题通常是指如何从一个或多个起点到达一个或多个终点的问题,并寻找其中的最短路径。在Task1的C部分,实际上是一个最短路径问题。通过在B部分中得到的分类,我们可以计算不同州之间的距离,并用TOPSIS方法(逼近理想解排序法)将距离转化为得分。最终,选择得分最高的州作为目标。
5. 多元回归分析:
多元回归分析是一种统计技术,用于确定两个或多个自变量与因变量之间的关系。在Task1的D部分,可以使用多元回归处理其他相关问题,例如能源消费与地理条件、工业生产、人口和气候之间的关系。
6. 预测与加权判断:
在Task2的A部分,需要对未来的数据进行预测,例如预测2025年到2050年的能源消费。可以使用统计或机器学习方法进行预测。预测完成后,使用Task1中得到的判断标准进行加权,处理判断和评价任务。
7. 政策制定的数学模型:
在Task2的B部分,为了使得各州达成目标,需要制定相应的政策。这涉及到根据预测结果,提出符合某些限制条件的政策。限制条件可以用数学不等式来描述。通过设定合适的限制条件,可以使用优化模型来提出有效的政策建议。
8. 注意事项:
文章最后提醒注意题目中要求是2009年的预测情况,这可能是说明在Task3部分,需要特别关注2009年的数据和情况。
这些知识点覆盖了数据预处理、因子分析、聚类分析、最短距离问题、TOPSIS方法、多元回归分析、预测模型、政策制定的数学模型等多个与数据分析和决策相关的领域。在准备论文时,参赛者应该结合具体的数学模型和分析方法,提出解决策略,并进行逻辑严密的论证。