没有合适的资源?快使用搜索试试~ 我知道了~
阿里稳定性保障白皮书文档
需积分: 0 1 下载量 157 浏览量
2023-07-09
23:18:41
上传
评论
收藏 14.66MB PDF 举报
温馨提示
试读
43页
阿里稳定性保障白皮书文档
资源推荐
资源详情
资源评论
云上业务稳定性保障实践白皮书
目录
CATALOG
一. 引言
2.1 稳定性
2.2 故障
01
02
二. 理论概念
六. 总结与展望四. 变更管控体系
3.1 故障等级定义
3.2 故障分体系
3.3 故障管理全流程
3.3.1 故障发现
3.3.2 故障应急
3.3.3 故障快恢
3.3.4 故障复盘
3.3.5 改进追踪
03
06
07
07
08
11
12
13
三. 故障管理体系
5.1 游戏业务稳定性保障
5.1.1 新游上线稳定性保障实践
5.1.2 游戏容器化部署最佳实践
5.2 直播业务稳定性保障
5.2.1 赛事直播场景
5.2.2 直播业务监控最佳实践
5.3 平台网站业务稳定性保障
5.3.1 监控预警体系建设
5.3.2 全链路压测与容量评估
5.3.3 高可用架构建设
5.3.4 故障演练与紧急预案设计
22
22
34
52
54
57
59
68
77
81
五. 行业客户稳定性保障实践
4.1 变更标准流程规范
4.2 变更管控动作
4.2.1 准入
4.2.2 灰度
4.2.3 观测
4.2.4 回滚
4.2.5 数据记录上报
14
16
16
18
20
20
21
一、引言
随着客户云上业务规模越来越大,迭代速度越来越快,系统复杂度越来
越高,如何保障云上业务稳定性这个话题也变的愈发重要。本文将从理论概
念出发、围绕故障管理体系和变更管控体系展开,并根据各行业客户稳定性
实践经验,对云上业务稳定性体系建设进行多角度的讲解。
编写组成员
王超(明稀)陈阳(楷睿)李斯达(木仔) 张医博(韩笠) 陈庆康(辰路) 周建平
(嘉益) 徐元(英为) 王海忠(豫仁)
二、理论概念
2.1 稳定性
“稳定性是数学或工程上的用语,判别一系统在有界的输入是否也产生有
界的输出。若是,称系统为稳定;若否,则称系统为不稳定”。这是维基百科
上对稳定性的定义,所以当一个业务系统接收到输入后,可以产生符合预期
的输出,那么我们认为业务系统是稳定的,否则业务系统是不稳定的。一个
产品/系统其实可以分为一个个循环往复的周期单元,简单来看:
一个完整周期单元时间 = 无故障时间 + 故障恢复时间。
尽可能延长无故障时间(MTBF),缩短故障恢复时间(MTTR),提升
业务整体可用性,也就是所谓的"稳定"。业务可用性也是可以通过Availability
= MTBF / (MTBF + MTTR) 来度量。通常业界习惯用N个9来表征系统可用
2.2 故障
ITIL中定义故障为IT服务意外中断或IT服务质量降低。且尚未对服务产生影响的
配置项失效也是一种故障。
阿里巴巴经济体的故障定义为除用户方环境或者用户自身操作引起的情况外,
其他无论什么原因导致的服务中断、服务品质下降或者用户服务体验下降的事
件都为故障。
无论理论还是实践,均证明故障只要有发生的可能,它总会发生。所以故障管
案例定义及目标:
•
电商全站交易可用率目标99.995%
• 可用性事件定义:因故障引发,全站交易创建、支付笔数与基线相比下跌
超过20%,且持续10分钟及以上,则记为可用性事件。
• 发生可用性事件后,对应时长计算为宕机时间(downtime),全年对应的
可用率即可计算出来。
性,比如99.9%(3-9 availability),99.999%(5-9 availability)。
可用性概念在各个业务上的落地实践即为业务可用率。业务可用率是业
务稳定性度量的重要指标之一,通过选取一个或者几个业务核心指标,定义
该指标(集)的下跌程度和持续时长作为影响该业务可用率的定义。围绕业
务场景的可用性指标定义、目标设定、系统监控能力建设,及通过目标关
联,最终达成联动上下游团队确保业务视角可用性目标达成的结果。
Availability
Downtime/年
5分钟
52分钟
8.76小时
3.65天
99%
99.9%
99.99%
99.999%
01 云上业务稳定性保障实践白皮书 云上业务稳定性保障实践白皮书 02
云上业务稳定性保障实践白皮书
理是很有必要的。故障管理是围绕故障全生命周期采取的一系列控制流程,
包括故障等级定义、故障发现、故障响应、故障定位、故障恢复、故障复盘
及持续改进(含故障演练)。故障管理的目标是预防可预知的问题,快速恢
复不能预知的问题,以及确保已发生的问题不再重复发生。这也是保障、提
升业务稳定性的有效手段,通过建立一个规范可遵循、全流程闭环的故障管
理体系,配合技术手段的提升,来降低故障发生的几率,缩短故障的MTTR,
最终使故障造成的破坏性趋近于0。
3.根据各功能模块的业务量级去适配不同的影响面及故障等级定义模板
其中根据业务量级适配不同的影响面及其对应的故障等级定义模板是这
个思路的重点。下面来举例解释(仅作参考,业务可根据自身实际情况酌情
使用部分推荐值):
对于核心功能:
a. 大体量的情况下(例如:高峰期分钟级超过1000TPS,日均100W以
上),建议分钟级成功量下跌30%及以上定义为P1
建议分钟级成功量下跌30%及以上定义为P1
b.中体量的情况下(例如:高峰期分钟级100-1000TPS,日均
10-100W),建议10分钟内总体成功量下跌45%及以上定义为P1
c.小体量的情况下(例如高峰期分钟级10-100TPS,日均1-10W),
15/30分钟内总体成功量下跌45%及以上定义为P1
d. 更小体量的业务(日均小于1W TPS),可使用60分钟内总体成功量下
跌45%及以上定义为P2
在最高故障等级P1确定的情况下,我们依次降低影响面, 形成P2-P4的
标准 (大体量业务的主路径失败可以考虑P3起, 不设置P4级别故障), 如
30%-20%, 45%-30%等影响面对应剩余等级。
对于次核心功能(如营销类,注册类等业务),可以在核心功能的基础
上统一降低一个级别;
对于非核心功能(如查询类,后台使用等业务),可以在核心功能的基
础上统一降低两个级别;
由此生成一个故障等级定义的模板可以如下所示(实际使用中可适当精
简,避免过于冗余)。
三、故障管理体系
3.1 故障等级定义
一个完整的故障等级定义一般由业务场景(功能模块)+ 影响面 + 对应等级组
成。从功能受损后对用户实际受影响的程度可以简单将模块分为核心功能、次核心
功能和非核心功能等模块 ,核心功能模块主要是直接影响用户使用服务的,非核
心模块影响到用户体验,但是对主路径功能没有重大影响的。例如,交易创建和支
付类的毫无疑问是核心模块, 其他查询类,展示类的功能为非核心功能模块。次
核心功能模块,比如说退款、提现、绑卡等功能,会间接影响用户使用核心功能,
但用户可接受一定时间的不可用的, 介于核心和非核心之间的一种分类。
影响面主要是用来描述某个功能模块受损后的现象和结果, 最常使用的指标
是 成功量、成功率、耗时、影响用户数、失败量、影响时长等指标,其中使用成
功量比较常见且直观。
最后,根据业务层面对影响面的判断, 对不同级别的影响面匹配不同的故障
等级(P1-P4)。
标准化故障等级定义制定的思路:
1.依据业务属性先将业务划分为大的子类(业务整体技术架构层面)
2.将每个子类业务里的核心模块和次核心、非核心模块区分开来(功能层面)
03 云上业务稳定性保障实践白皮书 云上业务稳定性保障实践白皮书 04
云上业务稳定性保障实践白皮书
故障等级定义制定好以后,需要得到技术负责人的审批,以及后续面向
技术团队和上下游团队的公示。必要时需要进行宣讲。
3.2 故障分体系
故障分是阿里巴巴独特的故障衡量机制,通过算法赋予故障一个分值,
解决了传统故障考核中的只看个数不看故障严重程度(持续时长,影响范围
等)的弊端,同时有效提升了故障的MTTR。
故障分的基本公式为:
持企业柔性,以应对行业可能出现的迭代和升级。
其中Pscore根据故障的等级及综合影响范围来确定,Tratio根据故障的
持续时长来确定,Eratio根据故障引发的附加影响面(如重大舆情,重大资金
损失)来确定。此外云上产品故障也会引入S系数,根据企业用户对故障影响
的感受成都来确定。
业务量级 功能分类
p4p3p2p1影响面
核心功能
大体量
中体量
小体量
业务量级 功能分类
p4p3p2p1影响面
成功量下跌30%及以上
p1
p2
p3
p4
p4
p4
p4
p4
p3
p3
p3
p3
p3
p3
p2
p2
p2
p2
p2
p1
p1
次核心功能
非核心功能
次核心功能
非核心功能
核心功能
次核心功能
核心功能
成功量下跌20%-30%
成功量下跌20%及以下
成功量下跌30%及以上
成功量下跌20%-30%
成功量下跌20%及以下
成功量下跌30%及以上
成功量下跌30%及以下
10分钟内总体成功量下跌
45%及以上
10分钟内总体成功量下跌
30%及以下
10分钟内总体成功量下跌
30%-45%及以上
10分钟内总体成功量下跌
45%及以上
10分钟内总体成功量下跌
45%及以下
15/10分钟内总体成功量
下跌45%及以下
15/10分钟内总体成功量
下跌30%-45%及以上
15/10分钟内总体成功量
下跌30%及以上
15/10分钟内总体成功量
下跌30%及以下
15/10分钟内总体成功量
下跌30%-45%及以下
15/10分钟内总体成功量
下跌30%下
15/10分钟内总体成功量
下跌445%下
15/10分钟内总体成功量
下跌45%及以上
15/10分钟内总体成功量
下跌30%-45%
微量
小体量
p4
p4
p4
p3
p3
p3
p2
p2
非核心功能
核心功能
核心/非核心
功能
15/10分钟内总体成功量
下跌45%及以上
60分钟内总体成功量
下跌30%-45%
60分钟内总体成功量
下跌30%以下
60分钟内总体成功量
下跌45%以上
60分钟内总体成功量
下跌30%-45%
15/30分钟内总体成功量
下跌45%以下
60分钟内总体成功量
下跌45%以上
05 云上业务稳定性保障实践白皮书 云上业务稳定性保障实践白皮书 06
云上业务稳定性保障实践白皮书
剩余42页未读,继续阅读
资源评论
小强聊it
- 粉丝: 532
- 资源: 6
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功