监控 MinIO 集群健康状态
一 监控总览与采集路径
二 快速落地步骤
三 关键指标与典型告警
| 维度 | 关键指标或检查 | 用途/说明 | 建议阈值示例 |
|---|---|---|---|
| 节点健康 | 指标:minio_cluster_nodes_offline_total;检查:/minio/health/live | 识别节点宕机或失联 | 离线数 > 0 持续 5–10 分钟 告警 |
| 磁盘健康 | 指标:minio_cluster_disk_offline_total、minio_cluster_disk_online_total | 识别磁盘故障/掉线 | 离线磁盘数 > 0 持续 5–10 分钟 告警 |
| 容量 | 指标:minio_cluster_capacity_usable_free_bytes、minio_cluster_capacity_total_bytes | 容量水位与增长趋势 | 可用容量/总容量 < 20% 告警 |
| 仲裁 | 检查:/minio/health/read、/minio/health/write | 读写可用性门限 | 返回非 200 即告警 |
| 请求健康 | 指标:minio_s3_requests_total、minio_s3_requests_errors_total、minio_s3_requests_4xx_errors_total、minio_s3_requests_5xx_errors_total、minio_s3_time_ttfb_seconds | 错误率与首字节时延 | 5xx 错误率 > 1% 或 P95 TTFB 超过阈值告警 |
| 桶与流量 | 指标:minio_bucket_usage_object_total、minio_s3_traffic_received_bytes、minio_s3_traffic_sent_bytes | 容量与带宽趋势 | 结合业务设定增长/突增阈值 |
四 高可用与运维要点