【免费】工业数据处理训练任务.docx资源-CSDN文库

全国职业技能大赛

大数据比赛

需积分: 0 64 浏览量 2023-03-24 15:38:49 上传评论 1 收藏 46KB DOCX 举报

资源推荐

资源详情

资源评论

环境说明：

集群启动命令为在 Master 上执行 allstart.sh；

各主机可通过 SSH 客户端进行 SSH 访问（需通过 22 映射的宿主机端

口号访问）；

Master 节点 MySQL 数据库用户名/密码：root/123456（已配置远程

连接，需通过 3306 映射的宿主机端口号连接）；

Hive 的配置文件位于/opt/module/hive-3.1.2/conf/

Spark 任务在 Yarn 上用 Client 运行，方便观察日志。

离线数据处理

任务一：数据抽取

编写 Scala 代码，使用 Spark 将 MySQL 的 shtd_industry 库中表

EnvironmentData，ChangeRecord，BaseMachine，MachineData,ProduceRecord

全量抽取到 Hive 的 ods 库（需自建）中对应表 environmentdata ，

changerecord，basemachine， machinedata， producerecord 中。

1、抽取 MySQL 的 shtd_industry 库中 EnvironmentData 表的全量数

据进入 Hive 的 ods 库中表 environmentdata，字段排序、类型不变，同时添

加静态分区，分区字段类型为 String，且值为当前日期的前一天日期（分区

字段格式为 yyyyMMdd ）。并在 hive cli 执行 show partitions

ods.environmentdata 命令，将结果截图粘贴至对应报告中；

2、抽取 MySQL 的 shtd_industry 库中 ChangeRecord 表的全量数据

进入 Hive 的 ods 库中表 changerecord，字段排序、类型不变，同时添加静

态分区，分区字段类型为 String，且值为当前日期的前一天日期（分区字段

格式为 yyyyMMdd ）。并在 hive cli 执行 show partitions

ods.changerecord 命令，将结果截图粘贴至对应报告中；

3、抽取 MySQL 的 shtd_industry 库中 BaseMachine 表的全量数据进

入 Hive 的 ods 库中表 basemachine，字段排序、类型不变，同时添加静态分

区，分区字段类型为 String，且值为当前日期的前一天日期（分区字段格式

为 yyyyMMdd）。并在 hive cli 执行 show partitions ods.basemachine 命

令，将结果截图粘贴至对应报告中；

4、抽取 MySQL 的 shtd_industry 库中 ProduceRecord 表的全量数据

进入 Hive 的 ods 库中表 producerecord，字段排序、类型不变，同时添加静

态分区，分区字段类型为 String，且值为当前日期的前一天日期（分区字段

格式为 yyyyMMdd ）。并在 hive cli 执行 show partitions

ods.producerecord 命令，将结果截图粘贴至对应报告中；

5、抽取 MySQL 的 shtd_industry 库中 MachineData 表的全量数据进

入 Hive 的 ods 库中表 machinedata，字段排序、类型不变，同时添加静态分

区，分区字段类型为 String，且值为当前日期的前一天日期（分区字段格式

为 yyyyMMdd）。并在 hive cli 执行 show partitions ods.machinedata 命

令，将结果截图粘贴至对应报告中。

任务二：数据清洗

编写 Hive SQL 代码，将 ods 库中相应表数据全量抽取到 Hive 的 dwd 库（需

自建）中对应表中。表中有涉及到 timestamp 类型的，均要求按照 yyyy-MM-dd

HH:mm:ss，不记录毫秒数，若原数据中只有年月日，则在时分秒的位置添加

00:00:00，添加之后使其符合 yyyy-MM-dd HH:mm:ss。

1、抽取 ods 库中 environmentdata 的全量数据进入 Hive 的 dwd 库

中表 fact_environment_data，分区字段为 etldate 且

值与 ods 库的相对应

表该值相等

，并添加 dwd_insert_user 、 dwd_insert_time 、

dwd_modify_user 、 dwd_modify_time 四列 , 其中 dwd_insert_user 、

dwd_modify_user 均填写“user1”，dwd_insert_time、dwd_modify_time

均填写当前操作时间，并进行数据类型转换。并在 hive cli 按照 envoid 降

序排序，查询前 5 条数据，将结果内容截图粘贴至对应的报告中；

2、抽取 ods 库中 changerecord 的全量数据进入 Hive 的 dwd 库中表

fact_change_record ，抽取数据之前需要对数据根据 changeid 和

changemachineid 进行联合去重处理，分区字段为 etldate 且值与 ods 库的

相对应表该值相等，并添加 dwd_insert_user 、 dwd_insert_time 、

dwd_modify_user 、 dwd_modify_time 四列 , 其中 dwd_insert_user 、

dwd_modify_user 均填写“user1”，dwd_insert_time、dwd_modify_time

均填写当前操作时间，并进行数据类型转换。并在 hive cli 按照

change_machine_id 降序排序，查询前 1 条数据，将结果内容截图粘贴至对

应报告中；

3、抽取 ods 库中 basemachine 的全量数据进入 Hive 的 dwd 库中表

dim_machine,抽取数据之前需要对数据根据 basemachineid 进行去重处理。

分区字段为 etldate 且值与 ods 库的相对应表该值相等，并添加

dwd_insert_user、dwd_insert_time、dwd_modify_user、dwd_modify_time

四列 , 其中 dwd_insert_user 、 dwd_modify_user 均填写 “ user1 ” ，

dwd_insert_time、dwd_modify_time 均填写当前操作时间，并进行数据类型

转换。在 hive cli 中按照 base_machine_id 顺序排序，查询 dim_machine

前 2 条数据，将结果内容截图粘贴至对应报告中；

4、抽取 ods 库中 producerecord 的全量数据进入 Hive 的 dwd 库中

表 fact_produce_record,分区字段为 etldate 且值与 ods 库的相对应表该值

相等，并添加 dwd_insert_user、dwd_insert_time、dwd_modify_user、

dwd_modify_time 四列,其中 dwd_insert_user、dwd_modify_user 均填写

“user1”，dwd_insert_time、dwd_modify_time 均填写当前操作时间，并

进行数据类型转换。在 hive cli 中按照 produce_machine_id 顺序排序，查

询 fact_produce_record 前 2 条数据，将结果内容截图粘贴至对应报告中；

5、抽取 ods 库中 machinedata 的全量数据进入 Hive 的 dwd 库中表

fact_machine_data。分区字段为 etldate 且值与 ods 库的相对应表该值相

等，并添加 dwd_insert_user 、 dwd_insert_time 、 dwd_modify_user 、

dwd_modify_time 四列,其中 dwd_insert_user、dwd_modify_user 均填写

“user1”，dwd_insert_time、dwd_modify_time 均填写当前操作时间，并

剩余17页未读，继续阅读

评论收藏

内容反馈

约定Da于配置

粉丝: 1525
资源: 2

工业数据处理训练任务.docx

辽宁工程技术大学综合训练项目任务书一(数据结构) .docx

2.3直通车推广数据采集与处理方案撰写.docx

数据结构模拟试卷.docx

金融数据处理方案设计.docx

数据仓库的数据处理基础架构.docx

：网站运营数据分析心得体会.docx

4《数字电子技术基础实验》阶段完成的任务.docx

(完整word版)湖北工业大学机器视觉作业.docx

一种微信小程序教学辅助系统及方法、信息数据处理终端.docx

7-数据营销推广.docx

数据挖掘技术与应用：检测与处理缺失值.docx

恶臭污染物在线监测与数据分析系统设计.docx

一种大数据环境下的数据质量监控方法.docx

上海市推进新型基础设施建设行动方案(2020-2022年)主要任务.docx

基于vSAN双活架构的云数据中心设计方案.docx

数字信号实验报告(matlab实验数据与结果).docx

第十五届蓝桥杯大赛软件赛省赛-C/C++ 研究生组

VRPTW 的 Solomon 标准测试数据集

数学建模国赛：无人机遂行编队飞行中的纯方位无源定位分析

最值得收藏的 数据结构 全部知识点思维导图整理(王道考研), 附带经典题型整理.emmx

利用SVM（支持向量机）进行图像分割/提取-MATLAB

变分模态分解（VMD）代码

最新版Notepad++十六进制查看的插件x64HexEditor0.9.12

origin2021下载免费分享

《Spring Cloud Alibaba 从入门到实战》.pdf

PSG 3D 三维测绘系统

数据资产管理实践白皮书6.0

甲骨文卷积神经网络识别-RTL（甲骨文识别）

最新资源

最值得收藏的数据结构全部知识点思维导图整理(王道考研), 附带经典题型整理.emmx