1
2022 年“泰迪杯”数据分析技能赛
A 题
竞赛作品的自动评判
一、背景
在各类学科竞赛中,常常要求参赛者提交 Excel 或/和 PDF 格式的竞赛作品。
本赛题以某届数据分析竞赛作品的评阅为背景,要求参赛者根据给定的评分准则
和标准答案,使用 Python 编程完成竞赛作品的自动评判。
二、目标
1. 使用 Python 解压压缩文件,从中读取指定的文件。
2. 使用 Python 解析 PDF 文件,获取其中的图片信息。
3. 使用 Python 解析 Excel 和 PDF 文件,对数据进行处理与统计,根据评分
准则对每份作品打分,并输出报表。
三、任务
根据提供的评分标准及要求,对每份作品进行自动评分,并撰写报告,在报
告中详细描述各项任务的处理思路、过程及必要的结果。同时,将 Python 源代
码保存为 py 文件,文件名为任务编号,例如“task1_1.py”“ task1_2.py”“ task2_1.py”
等。
任务 1 基本处理
压缩文件“DataA.rar”中 包括所有待评分的作品,每份作品是以作品号为文
件名、包含若干结果文件的压缩文件,文件格式可能是 rar、zip 或 7z。
任务 1.1 将压缩文件“DataA.rar”中的所有作品解压到当前文件夹的同名
子文件夹(即以每份作品的作品号为子文件夹名)中。
任务 1.2 在当前文件夹中新建“summary”子文件夹,在每份作品文件夹中
新建“image”子文件夹。
任务 1.3 判断每份作品中是否包含文件“task2_1.xlsx”“task2_2.xlsx”