azkaban.docx

所需积分/C币: 9
浏览量·42
DOCX
1.29MB
2020-01-05 23:49:11 上传
身份认证 购VIP最低享 7 折!
评论 收藏
呆痞ys
  • 粉丝: 46
  • 资源: 44
前往需求广场,查看用户热搜
上传资源 快速赚钱
精品专辑
内容简介:Azkaban一 概述1.1 为什么需要工作流调度系统1)一个完整的数据分析系统通常都是由大量任务单元组成:shell 脚本程序,java 程序,mapreduce 程序、hive 脚本等2)各任务单元之间存在时间先后及前后依赖关系3)为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行;例如,我们可能有这样一个需求,某个业务系统每天产生 20G 原始数据,我们每天都要对其进行处理,处理步骤如下所示:1)通过 Hadoop 先将原始数据上传到 HDFS 上(HDFS 的操作);2)使用 MapReduce 对原始数据进行清洗(MapReduce 的操作);3)将清洗后的数据导入...