如何监控centos上k8s部署性能

如何监控CentOS上K8s部署性能
监控CentOS上Kubernetes（K8s）部署的性能是保障集群稳定、高效运行的关键，需覆盖节点、容器、编排组件、应用及网络等多维度，结合指标收集、可视化、告警等环节实现闭环。以下是具体的方法与工具实践：

一、核心监控工具选型

1. Prometheus + Grafana（基础必备组合）

Prometheus：专为云原生设计的开源监控系统，支持从K8s集群的/metrics接口抓取指标（如节点资源、Pod状态、API服务器性能等），具备多维数据模型（支持标签过滤）、灵活查询语言（PromQL）及强大的告警功能（通过Alertmanager实现通知）。
Grafana：开源数据可视化工具，可与Prometheus无缝集成，提供丰富的仪表盘模板（如K8s集群监控、节点资源、Pod性能等），支持实时展示指标趋势、对比分析及自定义图表。
两者结合是K8s监控的主流方案，适用于大多数CentOS环境。

2. 辅助工具补充

cAdvisor：Kubernetes内置的容器资源监控工具（通过kubelet自动部署），用于收集单个容器的CPU、内存、磁盘及网络使用情况，无需额外安装。
kube-state-metrics：监听K8s API服务器，生成集群资源状态指标（如Deployment的副本数、Pod的调度状态、节点的可用性等），补充Prometheus的监控维度。
Node Exporter：部署为DaemonSet，收集节点级系统指标（如CPU利用率、内存使用、磁盘I/O、网络流量等），填补Prometheus对节点本身的监控空白。
Netdata：实时性能监控工具，支持秒级数据采集，提供直观的Web界面，可监控服务器、容器及应用的CPU、内存、网络等指标，适合快速排查性能问题。

二、关键性能指标（需重点监控）

监控指标需覆盖集群基础资源、编排组件、应用性能及网络等方面，以下是核心指标清单：

节点资源使用率：CPU利用率（cpu_usage）、内存使用率（memory_usage）、磁盘使用率（disk_usage）、磁盘I/O（disk_io）及网络流量（network_receive/network_transmit），用于判断节点是否过载。
Pod健康状态：Pod状态（pod_status，如Running、Pending、Error）、容器重启次数（container_restart_count）、Pod就绪状态（pod_ready），及时发现Pod异常。
编排组件健康：etcd集群状态（etcd_server_has_leader，判断是否有主节点）、控制器管理器运行时间（controller_manager_uptime）、调度器运行时间（scheduler_uptime），确保核心组件稳定。
API服务器性能：API请求延迟（apiserver_request_latencies，单位毫秒）、请求速率（apiserver_request_rate），避免API服务器成为性能瓶颈。
应用性能：应用容器的CPU/内存使用率（container_cpu_usage/container_memory_usage）、请求延迟（如HTTP请求的http_request_duration_seconds）、错误率（http_requests_total{status=~"5.."}），定位应用层性能问题。
网络性能：网络发送/接收速率（network_transmit_bytes/network_receive_bytes）、网络错误率（network_error_rate），排查网络拥塞或连接问题。

三、部署与配置步骤（以Prometheus+Grafana为例）

1. 部署Prometheus

方式1：使用Prometheus Operator（推荐）：通过Helm Chart快速部署，自动配置Prometheus、Alertmanager及Grafana，简化管理流程。例如：

helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
helm install prometheus prometheus-community/kube-prometheus-stack -n monitoring --create-namespace

方式2：手动部署：编写Prometheus配置文件（prometheus.yml），定义scrape_configs（抓取K8s集群指标的端点，如/metrics），并通过DaemonSet部署Prometheus Server。

2. 部署Grafana并连接Prometheus

部署Grafana：通过helm install grafana prometheus-community/kube-prometheus-stack -n monitoring或kubectl apply -f grafana-deployment.yaml部署。
配置数据源：登录Grafana Web界面（默认地址http://<grafana-ip>:3000，账号admin/admin），添加Prometheus数据源（URL为http://prometheus-server.monitoring.svc.cluster.local:80）。

3. 部署辅助工具

cAdvisor：无需手动部署，kubelet会自动启动（默认端口4194）。

kube-state-metrics：通过Helm Chart部署：

helm install kube-state-metrics prometheus-community/kube-state-metrics -n monitoring --create-namespace

Node Exporter：通过DaemonSet部署，确保每个节点运行一个实例：

apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: node-exporter
  namespace: monitoring
spec:
  selector:
    matchLabels:
      app: node-exporter
  template:
    metadata:
      labels:
        app: node-exporter
    spec:
      containers:
      - name: node-exporter
        image: prom/node-exporter
        ports:
        - containerPort: 9100
          name: metrics

应用后，Prometheus会自动抓取Node Exporter的指标。

4. 导入Grafana Dashboard

从Grafana官方库导入现成的K8s监控Dashboard（如ID为1860的“Kubernetes Cluster Monitoring”），或自定义Dashboard，通过PromQL查询指标并配置图表。

四、告警配置（及时响应异常）

通过Alertmanager配置告警规则，当指标超过阈值时触发通知（如邮件、Slack、PagerDuty）。以下是常见告警示例：

节点资源不足：

- alert: NodeCPUUsageHigh
  expr: 100 - (avg by(instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80
  for: 5m
  labels:
    severity: warning
  annotations:
    summary: "Node {{ $labels.instance }} CPU usage is high"
    description: "CPU usage is above 80% for 5 minutes"

Pod重启频繁：

- alert: PodRestartFrequently
  expr: increase(container_restart_count[1h]) > 3
  for: 10m
  labels:
    severity: critical
  annotations:
    summary: "Pod {{ $labels.pod }} in namespace {{ $labels.namespace }} restarted frequently"
    description: "Pod has restarted more than 3 times in the last hour"

配置完成后，Prometheus会根据规则评估告警，Alertmanager负责发送通知。

五、日志监控（补充性能分析）

性能问题往往需要结合日志排查，可使用EFK Stack（Elasticsearch+Fluentd+Kibana）或Loki+Promtail+Grafana收集、存储及可视化日志：

Fluentd：部署为DaemonSet，收集所有容器的日志（stdout/stderr），转发到Elasticsearch或Loki。
Kibana/Loki：提供日志搜索、过滤及可视化功能，帮助定位性能瓶颈（如应用错误日志、慢查询日志）。

通过以上方案，可实现CentOS上K8s部署的全面性能监控，及时发现并解决节点过载、Pod异常、API瓶颈等问题，保障集群稳定运行。