【免费】如何专业化监控一个Kubernetes集群1_es集群查看某一个节点磁盘空间资源-CSDN文库

需积分: 0 94 浏览量更新于2022-08-03 1 收藏 3.08MB PDF 举报

【如何专业化监控一个Kubernetes集群1】在Kubernetes（K8s）的环境中，确保系统的稳定性和可维护性至关重要。为了达到这一目标，构建全面深入的可观测性架构是核心要素之一。可观测性主要涉及指标（Metrics）、日志（Logging）、链路追踪（Tracing）、K8s Event事件以及NPD（Node Problem Detector）框架等多个方面。这些方法共同作用，以全方位地监控Kubernetes集群的状态和数据。 Kubernetes系统因其复杂性和动态性带来了可观测性的挑战。系统由控制面和数据面组成，其中包含了多个相互通信的组件。控制面与数据面通过kube-apiserver进行桥接，而Pod、Service等资源的动态创建、分配IP以及Pod重建后的资源更新，则需要依赖于动态服务发现来获取监控对象。此外，随着微服务架构的应用，Kubernetes中的应用被拆分为多个组件，副本数量可根据需求自动或人工调整，进一步增加了监控的复杂性。面对这些挑战，高效的Kubernetes可观测性能力是系统稳定性的基石。实现这一目标通常需要综合运用各种手段，如： 1. **指标（Metrics）**： Prometheus是最常用的指标数据采集工具，它具有多维数据模型、灵活的查询语言PromQL以及支持多种图表和数据展示。Prometheus通过HTTP的Pull模型定期从组件的/metrics端点采集指标，包括容器的基础资源指标（如内存、CPU、网络、文件系统）、节点资源指标（如节点的CPU/内存/磁盘利用率）以及Kubernetes资源指标（如Node、ConfigMap、Deployment等的API对象状态）。 2. **日志（Logging）**：日志记录了应用程序和系统的运行情况，是诊断问题的重要依据。Kubernetes可以通过集成Elasticsearch、Fluentd等工具来收集、存储和分析容器的日志，以提供故障排查的线索。 3. **链路追踪（Tracing）**：对于微服务架构，链路追踪可以帮助理解请求在整个系统中的传播路径和性能瓶颈。Jaeger或Zipkin是常用的链路追踪工具，它们能够跟踪跨服务的调用，帮助优化服务间的通信。 4. **K8s Event事件**： Kubernetes Event记录了系统内部的变化，提供了关于资源状态和操作的即时反馈。分析Event可以帮助理解系统的动态行为和潜在问题。 5. **NPD框架**： Node Problem Detector是一个用于检测和报告节点问题的组件，它可以监测硬件故障、系统异常等，提高节点的可靠性。在生产环境中，结合这些工具和方法，可以构建一个立体的可观测性体系。例如，Prometheus可以与Grafana结合，以可视化的方式展示指标数据；日志可以与Kibana集成，提供搜索、分析和可视化的日志界面；链路追踪则可以帮助优化服务网格中的延迟和错误率。为了应对快速扩展的集群规模，还可能需要使用服务网格（如Istio）来增强可观测性，同时利用自动化工具（如Alertmanager）进行告警配置，以便在出现问题时及时通知。此外，Kubernetes社区还提供了许多其他的开源工具，如Heapster（已被废弃，但其功能被其他工具取代）、Kube-state-metrics等，它们都可以为监控提供有力的支持。总结来说，构建Kubernetes集群的专业化监控体系，不仅需要选择合适的工具，还需要根据具体业务需求和集群规模进行定制化配置。通过整合指标、日志、链路追踪等多种手段，可以实现对系统运行状态的全面监控，从而提高Kubernetes集群的稳定性、可用性和用户体验。在实践中，不断迭代和完善监控策略，是确保Kubernetes系统健康运行的关键。

作者：刘佳旭（佳旭）

创作期：2021-05-24

专栏地址：【稳定于切】

Kubernetes 在󰈿产环境应󰉁的普及度越来越、复杂度越来越󰷼，随之󰖳来的稳定性保障的挑战也越来越

。

如何构建全󰴯深的可观测性架构和体系，是提升系统稳定性的关键之因素。ACK将可观测性最佳实践进

󰢩沉淀，以阿󰮟云产品功能的能对󰉁户透出，可观测性具和服务成为基础设施，赋能并帮助󰉁户使󰉁产

品功能，提升󰉁户Kubernetes集群的稳定性保障和使󰉁体验。

本会介绍Kubernetes可观测性系统的构建，以及基于阿󰮟云云产品实现Kubernetes可观测系统构建的最佳

实践。

Kubernetes系统对于可观测性󰴯的挑战包括：

K8s系统架构的复杂性。系统包括控制󰴯和数据󰴯，各󰙵包含多个相互通信的组件，控制󰴯和数据间之

间通过kube-apiserver进󰢩桥接聚合。

动态性。Pod、service等资源动态创建以及分配IP，Pod重建后也会分配新的资源和IP，这就需要基于

动态服务发现来获取监控对象。

微服务架构。应󰉁按照微服务架构分解成多个组件，每个组件副本数可以根据弹性进󰢩󰙵动或者控

制。

针对Kubernetes系统可观测性的挑战，尤其在集群规模快速增󰲊的情况下，󰷼效可靠的 Kubernetes 系统可

观测性能，是系统稳定性保障的基󰍋。

那么，如何对建设󰈿产环境下的 Kubernetes 系统可观测性能呢？

Kubernetes系统的可观测性案包括指标、志、链󰩁追踪、K8s Event事件、NPD框架等式。每种式

可以从同维度透视Kubernetes系统的状态和数据。在󰈿产环境，我们通常需要综合使󰉁各种式，有时候

还要运󰉁多种式联动观测，形成完善󰐩体的可观测性体系，提󰷼对各种场景的覆盖度，进󰖳提升

Kubernetes系统的整体稳定性。下󰴯会概述󰈿产环境下对K8s系统的可观测性解决案。

Prometheus是业界指标类数据采集案的事实标准，是开源的系统监控和报警框架，灵感源󰙵Google的

如何专业化监控个Kubernetes集群

引󰤛

Kubernetes 系统的可观测性架构

1. 指标（Metrics）

Borgmon监控系统。2012，SoundCloud的Google前员创造Prometheus，并作为社区开源项󰋴进󰢩开

发。2015，该项󰋴正式发布。2016，Prometheus加CNCF云原󰈿计算基󰮣会。

Prometheus具有以下特性：

多维的数据模型（基于时间序的Key、Value键值对）

灵活的查询和聚合语󰤛PromQL

提供本地存储和分布式存储

通过基于HTTP的Pull模型采集时间序数据

可󰉁Pushgateway（Prometheus的可选中间件）实现Push模式

可通过动态服务发现或静态配置发现󰋴标机

持多种图表和数据盘

Prometheus可以周期性采集组件󰴣在HTTP(s)端点的/metrics下󰴯的指标数据，并存储到TSDB，实现基于

PromQL的查询和聚合功能。

对于Kubernetes场景下的指标，可以从如下󰤐度分类：

容基础资源指标。采集源为kubelet内置的cAdvisor，提供容内存、CPU、󰕲络、件系统等相关的

指标，指标样包括：容当前内存使󰉁字节数 container_memory_usage_bytes ，容󰕲络

接收字节数 container_network_receive_bytes_total ，容󰕲络发送字节

数 container_network_transmit_bytes_total 等等。

Kubernetes节点资源指标。采集源为 node_exporter ，提供节点系统和硬件相关的指标，指标样

包括：节点总内存 node_memory_MemTotal_bytes ，节点件系统空

间 node_filesystem_size_bytes ，节点󰕲络接ID node_network_iface_id ，等等。基

于该类指标，可以统计节点的CPU/内存/磁盘使󰉁率等节点级别指标。

Kubernetes资源指标。采集源为kube-state-metrics，基于Kubernetes API对象󰈿成指标，提供K8s集群

资源指标，如Node、ConﬁgMap、Deployment、DaemonSet等类型。以Node类型指标为，包括节

点Ready状态指标 kube_node_status_condition 、节点信息 kube_node_info 等等。

Kubernetes组件指标。

Kubernetes系统组件指标。如kube-controller-manager, kube-apiserver, kube-scheduler,

kubelet, kube-proxy, coredns等。

Kubernetes运维组件指标。可观测类包括 blackbox_operator , 实现对󰉁户󰙵定义的探活规则

定义； gpu_exporter ，实现对GPU资源的透出能。

Kubernetes业务应󰉁指标。包括具体的业务Pod在/metrics󰩁径透出的指标，以外部进󰢩查询和

聚合。

除上述指标，K8s提供通过API式对外透出指标的监控接标准，具体包括Resource Metrics，Custom

Metrics和External Metrics三类。

剩余17页未读，继续阅读

资源推荐

资源评论

滚菩提哦呢

粉丝: 770
资源: 341

如何专业化监控一个Kubernetes集群1

Prometheus监控实践：Kubernetes集群监控

PowerfulSeal一个Kubernetes集群的强大测试工具

Kubernetes集群之微服务JVM内存监控

Kubernetes山羊是一个“易受设计攻击的” Kubernetes集群。-Linux开发

raspberry-pik3s:一个RaspberryPi Kubernetes集群

一个简单的Python运维脚本示例，用于自动化管理Kubernetes集群中的Pods

神龙裸金属Kubernetes集群运维实践.pdf

30分钟部署一个Kubernetes集群.md

Go-Popeye-一个Kubernetes集群资源清理程序

部署 kubernetes 集群.docx

如何使用KubeSpray在Azure上构建Kubernetes集群

Kubernetes容器集群管理 完整清晰版 书籍

Python-kubernetes用于部署一个生产就绪的Kubernetes集群

大规模Kubernetes集群的巡检.pptx

声明式Kubernetes集群生命周期管理API介绍.pptx

Go-Kubernetes集群的GPU共享调度程序

Go-KubernetesDashboard是一个基于Web的Kubernetes集群管理UI

11 从0到1：搭建一个完整的Kubernetes集群.pdf

Kubernetes1.6集群部署完全指南——二进制文件部署开启TLS基于CentOS7

Go-管理一个Kubernetes集群的LetsEncrypt证书

大型Kubernetes集群运维管理实践.pdf

创建生产级别的Kubernetes集群.pptx

大规模Kubernetes集群的巡检.pdf

Go-hobbyist的Kubernetes集群

Go-Kubeiql-为Kubernetes集群提供另一种GraphQL接口

Go-和我一步步部署kubernetes集群

Go-集群生命周期管理器CLM配置和更新多个Kubernetes集群

最新资源

Kubernetes容器集群管理完整清晰版书籍