A题：竞赛作品的自动评判数据.zip资源-CSDN文库

共8个文件

xlsx：5个

rar：2个

pdf：1个

需积分: 5 93 浏览量 2022-11-16 18:11:23 上传评论 2 收藏 83.83MB ZIP 举报

"A题：竞赛作品的自动评判数据 .zip" 涉及的主要知识点是数据挖掘和自动评判系统在竞赛环境中的应用。这通常意味着参赛者需要利用数据挖掘技术来构建模型或算法，以满足特定的评判标准。在第五届泰迪杯技能分析赛的A题中，参赛者可能被要求解决一个实际问题，如预测、分类、聚类或其他数据分析任务。数据挖掘是这个过程的核心，它包括预处理数据（清洗、转换、整合）、发现模式（关联规则、序列模式、异常检测）、构建模型（如决策树、随机森林、支持向量机、神经网络）以及模型评估。 "第五届泰迪杯技能分析赛A题题目及数据" 提示了提供给参赛者的资源不仅有具体的问题描述，还有用于训练和测试的原始数据集。数据集可能是结构化的（如表格形式）或非结构化的（如文本、图像、音频等），参赛者需要理解数据的含义，进行有效的特征工程，以提取有意义的信息。参赛者在处理这些数据时，可能会用到Python的Pandas库进行数据清洗和处理，Numpy进行数值计算，Scikit-learn库进行机器学习模型的构建与训练，甚至可能会用到TensorFlow或PyTorch进行深度学习模型的开发。此外，对于非结构化数据，他们可能需要使用NLTK或Spacy进行自然语言处理，或者OpenCV处理图像数据。在自动评判方面，比赛通常会有一套预先定义好的评分标准，比如预测准确率、召回率、F1分数、AUC-ROC曲线等。参赛者需要编写代码将他们的模型预测结果提交给评判系统，系统会根据这些指标自动打分。为了优化模型，参赛者可能需要进行参数调优，例如使用Grid Search或Randomized Search，或者采用交叉验证来确保模型的泛化能力。此外，参赛者还需要关注模型的可解释性和效率。在实际应用中，理解模型的决策过程至关重要，而高效的模型则可以应对大规模数据的挑战。因此，轻量级模型（如Lasso回归、决策树）或经过剪枝的复杂模型（如剪枝后的神经网络）可能会受到青睐。总结起来，"A题：竞赛作品的自动评判数据 .zip" 包含了数据挖掘、机器学习、深度学习、自然语言处理、图像处理、模型评估与选择等多个IT领域的知识。参赛者需要综合运用这些技能，通过理解和分析数据，构建出能够自动评判的高质量模型。

资源推荐

资源详情

资源评论

收起资源包目录

A题：竞赛作品的自动评判数据 .zip （8个子文件）

A题：竞赛作品的自动评判.pdf 645KB

A题：竞赛作品的自动评判数据

result1_4.xlsx 10KB

criteria2_1.xlsx 75KB

criteria2_2.xlsx 99KB

DataB.rar 30.42MB

result5_4.xlsx 9KB

criteria3.xlsx 9KB

DataA.rar 52.8MB

2022 年“泰迪杯”数据分析技能赛

A 题

竞赛作品的自动评判

一、背景

在各类学科竞赛中，常常要求参赛者提交 Excel 或/和 PDF 格式的竞赛作品。

本赛题以某届数据分析竞赛作品的评阅为背景，要求参赛者根据给定的评分准则

和标准答案，使用 Python 编程完成竞赛作品的自动评判。

二、目标

1. 使用 Python 解压压缩文件，从中读取指定的文件。

2. 使用 Python 解析 PDF 文件，获取其中的图片信息。

3. 使用 Python 解析 Excel 和 PDF 文件，对数据进行处理与统计，根据评分

准则对每份作品打分，并输出报表。

三、任务

根据提供的评分标准及要求，对每份作品进行自动评分，并撰写报告，在报

告中详细描述各项任务的处理思路、过程及必要的结果。同时，将 Python 源代

码保存为 py 文件，文件名为任务编号，例如“task1_1.py”“ task1_2.py”“ task2_1.py”

等。

任务 1 基本处理

压缩文件“DataA.rar”中包括所有待评分的作品，每份作品是以作品号为文

件名、包含若干结果文件的压缩文件，文件格式可能是 rar、zip 或 7z。

任务 1.1 将压缩文件“DataA.rar”中的所有作品解压到当前文件夹的同名

子文件夹（即以每份作品的作品号为子文件夹名）中。

任务 1.2 在当前文件夹中新建“summary”子文件夹，在每份作品文件夹中

新建“image”子文件夹。

任务 1.3 判断每份作品中是否包含文件“task2_1.xlsx”“task2_2.xlsx”

“task2_3.pdf”及“task3.xlsx”，每包含一个文件得 2 分，满分 8 分。

任务 1.4 对每份作品提取文件“task2_3.pdf”中的图片，保存在“image”

文件夹的“XXXX_n.png”文件中，其中“XXXX”为作品号、n 为图片在文件

“task2_3.pdf”中的图片序号。提取所有作品中的图片信息，按照表 1 的格式保

存在文件夹“summary”的“result1_4.xlsx”文件中。将含有作品号 A118~A120

的结果截屏放在报告中。

表

1 result1_4.xlsx

的格式

作品号

图片编号

保存路径

图片分辨率

图片文件大小

A001

A001_1

C:/ProblemA/A001/image/A001_1.png

600*800

124KB

A001_2

C:/ProblemA/A001/image/A001_2.png

600*900

164KB

A002

A002_1

C:/ProblemA/A002/image/A002_1.png

500*600

174KB

A002_2

C:/ProblemA/A002/image/A002_2.png

1200*860

386KB

A002_3

C:/ProblemA/A002/image/A002_3.png

600*700

197KB

A003

无

任务 2 数据分析

任务 2.1 通用名称评分

以“ criteria2_1.xlsx”为标准，根据正式登记证号对每份作品中的“task2_1.xlsx”

进行匹配，按以下规则统计错误数：

(1) 对匹配的记录，判断“产品通用名称”是否一致，如不一致，错误数 s 加

1。

(2) 对“criteria2_1.xlsx”中的每条记录，查找“task2_1.xlsx”，如没有匹配

的记录，错误数 s 加 1。

(3) 对“task2_1.xlsx”中的每条记录，查找“criteria2_1.xlsx”，如没有匹配

的记录，错误数 s 加 1。

对错误数 s：   得 15 分，     得 10 分，     得 5 分，

   得 0 分。

任务 2.2 分组标签评分

以“ criteria2_2.xlsx”为标准，根据正式登记证号对每份作品中的“task2_2.xlsx”

进行匹配，按以下规则统计错误数：

(1) 对匹配的记录，判断“分组标签”中的数值和顺序是否一致，如不一致，

错误数 s 加 1。

(2) 对“criteria2_2.xlsx”中的每条记录，查找“task2_2.xlsx”，如没有匹配

的记录，错误数 s 加 1。

(3) 对“task2_2.xlsx”中的每条记录，查找“criteria2_2.xlsx”，如没有匹配

的记录，错误数 s 加 1。

对错误数 s：   得 15 分，     得 10 分，     得 5 分，

   得 0 分。

任务 2.3 读取每份作品“task2_3.pdf”中产品登记数量及排名的表格，针对

每个排名判断“分组标签”和“产品登记数量”的数值与表 2 中的标准答案是否

一致，每个匹配的数值得 2 分，满分 12 分。

表

产品登记数量排名

排名

一

二

三

分组标签

产品登记数量

2012

1501

1038

任务 3 相似矩阵评分

以“criteria3.xlsx”为标准，对每份作品“task3.xlsx”中的相似矩阵（以下简

称相似矩阵）按以下规则进行评分。

任务 3.1 判断相似矩阵的维数与“criteria3.xlsx”中的是否一致，如一致得

5 分，否则得 0 分。

任务 3.2 公司 ID 匹配

对相似矩阵进行匹配，按以下规则统计错误数：

(1) 对“criteria3.xlsx”中的每个公司 ID，查找“task3.xlsx”，如没有匹配的

公司 ID，错误数 s 加 1。

(2) 对“task3.xlsx”中的每个公司 ID，查找“criteria3.xlsx”，如没有匹配的

公司 ID，错误数 s 加 1。

对错误数 s：   得 15 分，     得 10 分，     得 5 分，  

得 0 分。

任务 3.3 判断相似矩阵的对角线元素是否均为 1（允许误差 



），如均

为 1 得 5 分，否则得 0 分。

任务 3.4 判断相似矩阵的元素是否关于主对角线对称（允许误差 



），

评论收藏

内容反馈

先吃饭吧.

粉丝: 17
资源: 3

A题：竞赛作品的自动评判数据 .zip

【JCR一区级】Matlab实现白冠鸡优化算法COOT-CNN-BiLSTM-Attention的故障诊断算法研究.rar

ASPACCESS网络教学评判系统.zip

信息安全竞赛作品后台代码部分.zip

全国大学生信息安全竞赛作品收集.zip

全国大学生电子竞赛作品及自我训练作品.zip

附件5：第十届“挑战杯”河南科技大学大学生课外学术科技作品竞赛作品申报书和作品封面.zip

南京航空航天大学2018电子电路设计竞赛一等奖作品.zip

2022年第五届泰迪杯数据分析技能赛A题解析分享给有需要的同学

网络安全知识竞赛试题与答案.zip

2011-2017年全国大学生电子设计竞赛综合测评题 真题.zip

审思：评判作文的四依据.ppt

CAD竞赛决赛成绩及排名.zip

第五组孙锦凯《数据采集技术》期末考查作品.zip

“创青春”全国大学生创业计划竞赛-银奖作品.zip

“挑战杯”全国大学生课外学术科技作品竞赛.zip

2021年全国大学生物理实验竞赛一等奖作品.zip

2022年全国大学生物理实验竞赛附件材料-1.zip

2023年中国研究生数学建模竞赛E题.zip

springboot462学生心理压力咨询评判pf.zip

2015年研究生数学建模竞赛试题（ABCDEF）.zip

数学建模-2011高教社杯全国大学生数学建模竞赛评阅要点.zip.zip

人工智能与大数据学院秋日摄影作品.zip

第一届东南大学物联网竞赛参赛作品.zip

2021年全国大学生电子设计竞赛国家二等奖作品.zip

2018年全国大学生信息安全竞赛作品赛一等奖.zip

大数据技能竞赛岗位数据.zip

分别基于GBDT模型和logistic模型实现对贷款人预期违约率评判matlab源码.zip

天池第二届tair数据库比赛，rank：15score：60s.zip

最新资源

2011-2017年全国大学生电子设计竞赛综合测评题真题.zip