Kubernetes资源拓扑感知调度优化.doc资源-CSDN文库

版权申诉

63 浏览量 2022-07-09 22:53:24 上传评论收藏 1.56MB DOC 举报

资源推荐

资源详情

资源评论

Kubernetes 资源拓扑感知调度优化

笔者

星辰算力团队，星辰算力平台基于深入优化云原生统一接入和多云调度，加固容器运行态

隔离，挖掘技术增量价值，平台承载了腾讯内部的 CPU 和异构算力服务，是腾讯内部大规

模离线作业、资源统一调度平台。

背景

问题源起

近年来，随着腾讯内部自研上云项目的不断发展，越来越多的业务开始使用云原生方式托

管自己的工作负载，容器平台的规模因此不断增大。以 Kubernetes 为底座的云原生技术极

大推动了云原生领域的发展，已然成为各大容器平台事实上的技术标准。在云原生场景下，

为了最大化实现资源共享，单台宿主机往往会运行多个不同用户的计算任务。如果在宿主机

内没有进行精细化的资源隔离，在业务负载高峰时间段，多个容器往往会对资源产生激烈的

竞争，可能导致程序性能的急剧下降，主要体现为：

资源调度时频繁的上下文切换时间

频繁的进程切换导致的 CPU 高速缓存失效

因此，在云原生场景下需要针对容器资源分配加以精细化的限制，确保在 CPU 利用率较

高时，各容器之间不会产生激烈竞争从而引起性能下降。

调度场景

腾讯星辰算力平台承载了全公司的 CPU 和 GPU 算力服务，拥有着海量多类型的计算资

源。当前，平台承载的多数重点服务偏离线场景，在业务日益增长的算力需求下，提供源源

不断的低成本资源，持续提升可用性、服务质量、调度能力，覆盖更多的业务场景。然而，

Kubernetes 原生的调度与资源绑定功能已经无法满足复杂的算力场景，亟需对资源进行更

加精细化的调度，主要体现为：

Kubernetes 原生调度器无法感知节点资源拓扑信息导致 Pod 生产失败

kube-scheduler 在调度过程中并不感知节点的资源拓扑，当 kube-scheduler 将 Pod 调度

到某个节点后，kubelet 如果发现节点的资源拓扑亲和性要求无法满足时，会拒绝生产该

Pod，当通过外部控制环（如 deployment）来部署 Pod 时，则会导致 Pod 被反复创建-->

调度-->生产失败的死循环。

基于离线虚拟机的混部方案导致的节点实际可用 CPU 核心数变化

面对运行在线业务的云主机平均利用率较低的现实，为充分利用空闲资源，可将离线虚拟

机和在线虚拟机混合部署，解决公司离线计算需求，提升自研上云资源平均利用率。在保证

离线不干扰在线业务的情况下，腾讯星辰算力基于自研内核调度器 VMF 的支持，可以将

剩余15页未读，继续阅读

内容反馈

版权申诉

书博教育

粉丝: 1
资源: 2834

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip