### 复杂数据预处理-kettle #### 实验概述 本次实验主要针对复杂数据预处理进行实战演练,通过使用Kettle这一强大工具处理多种格式的数据文件。实验目标是利用所学的数据预处理技能来处理一系列关于学生基本信息及邮政编码信息的数据。 #### 实验目的 - 综合运用数据预处理技巧,特别是利用Kettle处理复杂数据。 - 掌握如何使用Kettle对结构化和非结构化数据进行有效处理。 - 实现对数据的清洗、转换、合并等操作。 - 分析和处理数据中的缺失值、异常值等问题。 #### 实验环境 - **开发工具**: Kettle 8.2 - **操作系统**: Ubuntu 16.04 或 Windows 7/10 #### 需求描述 - 数据源: 学生基本信息及邮政编码信息 - 学生基本信息表: 包含专业、学院、学号、姓名、性别等20多个字段,但缺少省份信息。 - 邮政编码信息表: 包含省份、地市、区县及邮政编码等字段,可能存在信息不全或包含特殊字符的情况。 - 数据文件: - `2019年普通全日制本科新生名单-计本专业 (20190810整理).xlsx` - `2019年普通全日制本科新生名单--教育技术学(20190907整理).xlsx` - `2019年普通全日制本科新生名单--软件工程(20190907整理).xls` - `youbian.xlsx` #### 实验要求 1. **统计各专业人数比例**: - 使用Kettle开发程序,根据三个专业表格中的数据统计出每个专业的学生人数比例。 2. **统计各省学生人数**: - 使用Kettle开发程序,基于学生基本信息表和邮政编码信息表,统计出各省的学生人数。 #### 实验步骤详解 ##### 一、统计各专业人数比例 1. **各专业人数**: - **Excel输入控件**: 读取三个专业的数据文件。 - **排序记录控件**: 按照学院进行排序。 - **分组控件**: 按照“本校专业名称”和“学院”分组,并统计每个专业的学生人数。 - **Multiway Merge Join控件**: 将三个专业的数据进行合并。 - **计算器控件**: 添加一个“总人数”字段,计算三个专业的学生总数。 2. **各专业人数比例**: - **计算器控件**: 添加一个“比例”字段,计算每个专业的学生人数占总人数的比例。 ##### 二、各省学生人数 1. **Excel输入控件**: 读取所有学生的数据文件。 2. **Select values控件**: 去除不必要的字段。 3. **排序记录控件**: 按照邮政编码排序。 4. **Unique rows控件**: 去重,确保每个学生的信息只出现一次。 5. **Select values 2控件**: 再次检查字段类型,确保正确无误。 6. **Strings cut控件**: 对邮政编码进行截取,提取省份信息。 7. **Sort row 2控件**: 再次按邮政编码排序,便于后续处理。 #### 实验结果示例 - **各专业人数比例**: - 教育技术学: 47人 (22%) - 软件工程: 45人 (21%) - 计算机科学与技术: 125人 (57%) - **各省学生人数**: - 示例结果: - 广东省: 35人 - 江苏省: 25人 - 浙江省: 15人 #### 结论 通过本实验,我们成功地使用Kettle完成了对复杂数据的预处理任务,包括统计不同专业的学生人数比例以及各省的学生人数。这不仅提高了数据分析的准确性和效率,还加深了对Kettle工具的理解和掌握。未来,在面对更复杂的实际应用场景时,我们可以更加自信地利用这些技能来解决问题。
- 粉丝: 723
- 资源: 13
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助