大数据技术之Azkaban.docx

所需积分/C币: 24
浏览量·61
DOCX
728KB
2021-03-03 18:04:20 上传
身份认证 购VIP最低享 7 折!
评论 收藏
一个写湿的程序猿
  • 粉丝: 1w+
  • 资源: 13
前往需求广场,查看用户热搜
上传资源 快速赚钱
精品专辑
内容简介:大数据技术之 Azkaban第 1 章 Azkaban 概论1.1为什么需要工作流调度系统1)一个完整的数据分析系统通常都是由大量任务单元组成:shell 脚本程序,java 程序,mapreduce 程序、hive 脚本等2)各任务单元之间存在时间先后及前后依赖关系3)为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行;例如,我们可能有这样一个需求,某个业务系统每天产生 20G 原始数据,我们每天都要对其进行处理,处理步骤如下所示:(1)通过 Hadoop 先将原始数据同步到 HDFS 上;(2)借助 MapReduce 计算框架对原始数据进行计算,生成的数据以分区表的形式...