没有合适的资源?快使用搜索试试~ 我知道了~
海量大数据平台的运维智能化实践
13 下载量 128 浏览量
2021-02-24
16:19:55
上传
评论
收藏 733KB PDF 举报
温馨提示
试读
12页
介绍Tesla如何支撑阿里离线计算和实时计算两大海量大数据平台的标准化日常运维运营,以及探索如何构筑运维领域的知识图谱,打造针对大数据平台和大数据业务的数据化全息投影,实现多维的立体化监控、智能决策分析、自动化执行的运维闭环。Tesla是面向企业级复杂业务系统的数据化驱动运维解决方案,解决方案包含一个统一运维门户(运维工单、运维垂直搜索)和四个运维基础平台(流程平台、配置平台、作业平台、数据平台),集日常运维工单管理、自动化发布变更、统一配置管理、统一任务调度、智能监控告警管理、异常检测预测、故障自愈等。分享大纲:·运维新趋势·Tesla运维解决方案·DataOps数据化运维·数据价值转化·A
资源推荐
资源详情
资源评论
海量大数据平台的运维智能化实践海量大数据平台的运维智能化实践
本文摘要:
介绍Tesla如何支撑阿里离线计算和实时计算两大海量大数据平台的标准化日常运维运营,以及探索如何构筑运维领域的知识
图谱,打造针对大数据平台和大数据业务的数据化全息投影,实现多维的立体化监控、智能决策分析、自动化执行的运维闭
环。Tesla是面向企业级复杂业务系统的数据化驱动运维解决方案,解决方案包含一个统一运维门户(运维工单、运维垂直搜
索)和四个运维基础平台(流程平台、配置平台、作业平台、数据平台),集日常运维工单管理、自动化发布变更、统一配置管
理、统一任务调度、智能监控告警管理、异常检测预测、故障自愈等。
分享大纲:
·运维新趋势
·Tesla运维解决方案
·DataOps数据化运维
·数据价值转化
·AIOps征程
开篇介绍:
我所在的团队叫大数据基础工程技术,通俗点说就是大数据SRE(为什么起基础工程技术这个名字? SRE文化里有个最核心的
点就是使用软件工程的思想来解决运维问题),我们团队支撑的是整个阿里大数据生态的运维运营,并沉淀出一套自己的运维
解决方案体系——Tesla,这套体系是一个分层体系,包含了面向运维领域功能的运维中台和面向具体大数据平台业务的运维
应用。目前Tesla承载了阿里大数据平台及业务共10w+规模节点的日常运维工作。相信了解阿里的人都听过这样一个词
——“大中台和小前台”战略,同样在运维领域,我们也是利用这个战略来构筑我们的业务:大中台提供通用的运维领域功能,
而小前台可以基于业务场景快速试错、创新。首先我们先看下运维的新趋势。
一.运维新趋势
刚好这几天Google IO大会也正在召开,相信在座的很多同学都会关注,今年的大会中有一个很吸引眼球的话题,就是在开场
第一天放出来的两段Demo视频,是个电话录音视频,内容是Google助手帮助客户打电话到发廊或餐厅去做预约。那么亮点在
哪里呢?在整个电话预约的过程中,发廊和餐厅的人完全没有感知到和他们交流的是AI机器人。换句话说,AI机器人已经达到
了以假乱真的效果,不仅在交流过程中有语气词和思考,而且当话题出现中断时,还会提出反问句,能让话题回到机器人所要
的情景进行下去。
Google对外宣称在某些特定领域,例如预约领域,他们已经通过了图灵测试。图灵测试大家可以去了解一下,图灵有一篇针
对未来机器智能的论文,一句话解释论文里的图灵测试:当人机交互时,人类完全感觉不到对方是个机器人,那么就标志着进
入了机器智能的时代。
大概在三年前,Google提出了AI战略。时至今日,我们看到Google在很多领域都渗透了AI,Google的AI并不是做一个全新的
AI产品,而是将AI赋能到它的顶尖产品中。所以,我们表面看到的是预约服务,但其实为了达到这个效果是需要很强大的数据
+算法的支撑。我们经常提到的ABC(AI,BigData,Cloud),想要实现AI,前提一定是大数据和云计算,而在运维领域也同样
是如此。这两年AIOps特别火,同样地我们认为要实现AIOps,一定是先有运维的数据和计算,就是说从DevOps到AIOps之
间,有一段DataOps必经之路。
如何理解DataOps呢?首先,我们要拿数据来感知我们所运维的系统,继而利用数据分析做一些决策,再往下就是去触发自动
化的智能闭环。我们认为DataOps中最核心的过程就是运维感知、决策和执行。
我们把无人驾驶和无人运维做了一个类比。无人驾驶也是Google第一个提出来的,现在有很多厂商投身其中,如果细看无人
驾驶,其实我们发现与无人运维类似——无人驾驶是在传统汽车上附加智能感知、决策、智能控制系统。但是真正的无人驾驶
还没有达到,即使是Tesla(马斯克的特斯拉)也不例外。而终极AIOps想要达到的是也是无人运维的效果,即在DataOps 的感
知、决策和执行三个阶段都附加上AI智能。接下来先看下整体的Tesla运维解决方案。
二.Tesla运维解决方案
上面这张图是阿里大数据的体系,左边最底层是基础设施,包含了底层依赖,机房、天基、Staragent;其上有两大基础平台,
一个是飞天平台,这是完全自研的,另一个是Hadoop平台。这两套平台之上分别对应的是MaxCompute和StreamCompute两
大存储计算平台;再往上是数据应用层。而右边是Tesla大数据运维解决方案,我们可以看到Tesla贯穿了整个阿里的大数据体
系,负责从基础设施到基础平台到存储计算平台的所有产品的运维支撑。
简而言之,Tesla就是在为阿里的大数据保驾护航。
MaxCompute是大数据的核心业务,而DataWorks可以理解为是一个面向开发者的前端,是MaxCompute的门户。
MaxCompute基本上承载了集团90%以上的计算和存储。在阿里,凡是和数据打交道同学都会用到DataWorks。
StreamCompute承载了集团几十个BU的实时作业。大家可能感触最多的是每年的双11大屏,这背后都是由StreamCompute实
时作业传上去的,可以达到秒级、毫秒级。最后是我们内部的机器学习PAI和AnalyticDB。
这张图是Tesla运维解决方案架构图。整个Tesla运维解决方案是一个分层的体系,从SRE中台到SRE应用。整体是一个垂直体
系,也可以拿SPI来分,中台最底层是IaaS,IaaS层是最基础的公共集团的设施,之上是核心运维PaaS层,其中包含四大平
台+两大类服务。 四大平台与运维人日常的工作相关,分别是配置平台、作业平台、流程事件平台和数据分析平台。再往上就
是SaaS层,提供了所有的平台和服务。Tesla平台支撑了阿里大数据的十几个平台,因为每个大数据平台业务产品的运维特性
都是不一样的,肯定无法做到一套运维系统支撑所有的产品运维运营,所以我们就采用了分层战略: 运维开发团队提供平
台,而针对具体产品的运维应用由SRE同学利用平台去构筑。典型的SRE应用包括常见的集群管理、资源管理、监控告警、
故障管理等。在这张图里我们可以看到DataOps体现在数据分析平台这一层。
这张图是应用维度。SRE应用这一层的功能也是分层的,最下面是其所依赖的基础平台,往上是面向业务的功能(包含业务中
心、服务管控、平台运营、工具服务、运维中心和运筹优化),利用这些功能向上支撑具体的运维场景(围绕稳定性、成本、质
量、效率、安全以及体验的维度),最终服务好业务的各类用户。
在运维/运营平台中抽象出了几块内容,开发框架、资源整合、运维数据化和智能分析。因为最终系统都是相似的,所以我们
会给提供前后端框架、服务网关、二方依赖包以及工具插件,业务SRE只需在环境上去获取数据,做数据处理、元数据管理
以及提供数据查询的服务。运维数据化(DataOps)就是我们前面提到的,智能分析支撑常见的运维场景,比如最典型的故障处
理、监控分析、大促保障以及值班客服等,他们面临的客户是一堆客户,这也是DataOps在SRE应用上的体现。接下来我们重
点解释到底什么是DataOps。
三.DataOps数据化运维
剩余11页未读,继续阅读
资源评论
weixin_38701156
- 粉丝: 5
- 资源: 957
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功