监控 MinIO 运行状态的实用方案
一 监控方案总览
二 快速落地步骤
三 关键监控指标与告警示例
| 维度 | 关键指标 | 用途/说明 | 建议阈值示例 |
|---|---|---|---|
| 节点健康 | minio_cluster_nodes_online_total / minio_cluster_nodes_offline_total | 集群节点在线/离线数 | 离线数 > 0 持续 5–10 分钟告警 |
| 磁盘健康 | minio_cluster_disk_online_total / minio_cluster_disk_offline_total | 磁盘在线/离线数 | 离线数 > 0 持续 5–10 分钟告警 |
| 容量 | minio_cluster_capacity_usable_free_bytes / minio_cluster_capacity_usable_total_bytes | 可用/总可用容量 | 可用容量低于阈值或增长异常 |
| 请求与错误 | **minio_s3_requests_total{code=~"4xx | 5xx"}** | 错误请求趋势 |
| 延迟 | minio_s3_time_ttfb_seconds_distribution | 首字节时延分布 | P95/P99 明显劣化 |
| 复制 | minio_bucket_replication_failed_bytes / failed_count | 复制健康度 | 失败字节/次数持续增长 |
| 生命周期 | minio_node_ilm_expiry_pending_tasks / transition_pending_tasks | 分层/过期任务积压 | 积压任务持续增长 |
| 审计与通知 | minio_audit_failed_messages / notify_target_queue_length | 审计与通知可靠性 | 失败或未发送队列增长 |
四 进阶与排错