没有合适的资源?快使用搜索试试~ 我知道了~
大数据技术之Azkaban.docx
需积分: 0 6 下载量 79 浏览量
2021-03-03
18:04:20
上传
评论 1
收藏 728KB DOCX 举报
温馨提示


试读
21页
大数据技术之Azkaban.docx详细文档
资源详情
资源评论
资源推荐

大数据技术之
第 1 章 Azkaban 概论
1.1 为什么需要工作流调度系统
1)一个完整的数据分析系统通常都是由大量任务单元组成:
脚本程序, 程序, 程序、 脚本等
)各任务单元之间存在时间先后及前后依赖关系
3)为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行;
例如,我们可能有这样一个需求,某个业务系统每天产生 原始数据,我们每天都
要对其进行处理,处理步骤如下所示:
(1)通过 Hadoop 先将原始数据同步到 HDFS 上;
(2)借助 MapReduce 计算框架对原始数据进行计算,生成的数据以分区表的形式存储
到多张 Hive 表中;
(3)需要对 Hive 中多个表的数据进行 JOIN 处理,得到一个明细数据 Hive 大表;
(4)将明细数据进行复杂的统计分析,得到结果报表信息;
(5)需要将统计分析得到的结果数据同步到业务系统中,供业务调用使用。

1.2 常见工作流调度系统
)简单的任务调度:直接使用 的 来定义;
) 复 杂 的 任 务 调 度 : 开 发 调 度 平 台 或 使 用 现 成 的 开 源 调 度 系 统 , 比 如
、、 、 等
1.3 各种调度工具特性对比
下面的表格对上述四种 hadoop 工作流调度器的关键特性进行了比较,尽管这些工作
流调度器能够解决的需求场景基本一致,但在设计理念,目标用户,应用场景等方面还是
存在显著的区别,在做技术选型的时候,可以提供参考
特性
工作流描述
语言
! !
"#$!%&
% '
(
)*
+%#,
依赖机制
-
是 否 要
( 容器
. / / .
进度跟踪
*
%
(% (% +%#,
) ) )

调度支持
运行模式
%)
#,
# 支持
) ) ) )
事件通知
)
需要安装
) )
支 持 的
版本
012 02 )
(
012
重试支持
(3(
%
) )
运行任意命
令
) ) ) )
4 5 支持
) )
(
)
1.4 Azkaban 与 Oozie 对比
对市面上最流行的两种调度器,给出以下详细对比,以供技术选型参考。总体来说,
相比 是一个重量级的任务调度系统,功能全面,但配置使用也更复杂。如
果可以不在意某些功能的缺失,轻量级调度器 是很不错的候选对象。
详情如下:
1)功能
两者均可以调度 ,,,脚本工作流任务
两者均可以定时执行工作流任务
2)工作流定义
使用 # 文件定义工作流
使用 ! 文件定义工作流
3)工作流传参
支持直接传参,例如678
支持参数和 4! 表达式,例如679:;"),$&8
4)定时执行
的定时执行任务是基于时间的
的定时执行任务基于时间和输入数据
5)资源管理
有较严格的权限控制,如用户对工作流进行读*写*执行等操作

暂无严格的权限控制
6)工作流执行
有两种运行模式,分别是 %%"% 和
(% 部署在同一台节点&和 %%"% 和 (
可以部署在不同节点&
作为工作流服务器运行,支持多用户和多工作流
7)工作流管理
支持浏览器以及 方式操作工作流
支持命令行、<<#%54;<、+%#,、浏览器操作工作流
1.5 Azkaban 特点
是由 ! 开源的一个批量工作流任务调度器。用于在一个工作流内以
一个特定的顺序运行一组工作和流程。 定义了一种 => 文件格式来建立任务之间
的依赖关系,并提供一个易于使用的 ( 用户界面维护和跟踪你的工作流。
它有如下功能特点:
)? 用户界面
)方便上传工作流
@)方便设置任务之间的关系
A)调度工作流
B)认证*授权"权限的工作&
C)能够杀死并重新启动工作流
D)模块化和可插拔的插件机制
1)项目工作区
E)工作流和任务的日志记录和审计

第 2 章 Azkaban 入门
2.1 单机模式
单机模式一般用于测试,不会用于生产环境。
1. 将 azkaban-solo-server-3.84.4.tar.gz 拷贝到集群,并解压
[lxx@hadoop102 software]$ tar /opt/software/azkaban-solo-server-
3.84.4.tar.gz -C /opt/module
2. 启动 Azkaban
[lxx@hadoop102 software]$ /opt/module
azkaban-solo-server-3.84.4/bin/start-solo.sh
3. 查看浏览器 http://hadoop102:8081
4. 关闭 Azkaban
[lxx@hadoop102 software]$ /opt/module
azkaban-solo-server-3.84.4/bin/shutdown-solo.sh
2.2 集群模式
2.2.1 上传 tar 包
1. 将 azkaban-db-3.84.4.tar.gz , azkaban-exec-server-
3.84.4.tar.gz,azkaban-web-server-3.84.4.tar.gz 上传到集群
[lxx@hadoop102 software]$ ll
总用量 35572
-rw-r--r--. 1 lxx lxx 6433 4 月 18 17:24 azkaban-db-3.84.4.tar.gz
-rw-r--r--. 1 lxx lxx 16175002 4 月 18 17:26 azkaban-exec-server-
3.84.4.tar.gz
-rw-r--r--. 1 lxx lxx 20239974 4 月 18 17:26 azkaban-web-server-
3.84.4.tar.gz
2. 新建/opt/module/azkaban 目录,并将所有 tar 包解压到这个目录下
[lxx@hadoop102 software]$ mkdir /opt/module/azkaban
[lxx@hadoop102 software]$ ls /opt/software/azkaban*.tar.gz | xargs -n1
tar zxC /opt/module/azkaban -f
2.2.2 设置 MySQL
1. 正常安装 MySQL
剩余20页未读,继续阅读









一个写湿的程序猿
- 粉丝: 1w+
- 资源: 14
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


安全验证
文档复制为VIP权益,开通VIP直接复制

评论0