混部数据中心在线离线服务特征分析.docx资源-CSDN文库

版权申诉

190 浏览量 2022-11-28 20:30:38 上传评论收藏 1.04MB DOCX 举报

资源推荐

资源详情

资源评论

随着云计算技术的日益发展和云服务能力的进一步提升,越来越多的企业

倾向于将自已的业务部署到云平台上。然而,最近的一些研究显示大多数商业

化集群的资源利用率都较低

[1,2,3,4]

。根据盖特纳和麦肯锡的研究数据,从全球范

围来看,服务器利用率仅达到 6%~12%。即使通过服务聚合技术进行优化,服务

器的利用率仍然只有 7%~17%。因此如何有效地对各类资源进行管理,保证资

源的高利用率和服务的高可用性成为了云平台管理者的一大挑战。

为了进一步提高资源利用率,可以通过更加细粒度的资源调度

[5,6,7]

以及借助

虚拟机和容器等虚拟化技术

[8,9,10,11]

将不同的服务实例整合在一起（比如将在线

服务和离线任务进行混合部署）

[12,13,14]

,使得工作负载分布的密度更高。但是这

种模式可能会对在线服务产生重大影响,例如由于在线服务和离线任务之间共

享资源 ,高密度部署会引起严重的资源竞争,从而增加在线服务的延迟,尤其是

长尾请求的延迟

[15,16]

。因此分析数据中心中服务器真实的资源利用率和各类工

作负载实际的运行状况有助于更好地了解各类资源的分配情况,还可以对目前

的调度算法提供有效的改进建议。

本文深入分析了阿里巴巴数据中心中某一个含有 4 034 台服务器的集群在

8 天时间内所有服务器的资源利用情况以及在线服务和离线任务的运行状况。

通过对该数据集的分析,主要贡献有：

（1）通过对整个集群中所有在线任务以及离线任务资源使用情况的分析,

总结了工作负载资源使用的一些特点,包括：①从在线服务的运行情况来看,所

有容器的平均 CPU 利用率存在周期性变化,从每天的早 8 点到晚 9 点维持在一

个较高水平,并且在每天凌晨 4 点回落到最低点;②对离线任务来说,发现除去第

一天和第八天,剩下 6 天中任务提交峰值都集中在每天的同一时刻。其次 95%

实例的运行时间都在 199 s 以内,但是有 0.052%的实例运行时间在 1 h 以上甚

至会持续几天。

（2）对集群中的批处理作业和在线服务进行了聚类分析,并确定工作负载

模式,发现相对高资源利用率的容器占了所有容器的绝大部分,而低资源利用率、

短执行时间的实例则占了总实例的绝大部分。首先选择有效的特征指标作为聚

类的维度,然后使用 K-means 算法识别每个维度的聚类边界,并对其进行聚类

分析。

剩余25页未读，继续阅读

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3692
资源: 1万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip