Ubuntu 上 HDFS 的监控与运维实践
一 监控体系与关键指标
| 维度 | 关键指标 | 建议阈值或动作 |
|---|---|---|
| 容量 | 总容量/已用/剩余/使用率 | 使用率持续 > 80% 触发扩容或清理 |
| 可用性 | DataNode 存活数、不可用 DN 占比 | 不可用 DN 占比 > 1% 需排查 |
| 数据可靠性 | Under-Replicated Blocks、Missing Blocks | 非 0 需优先处理,检查副本与磁盘 |
| 安全模式 | Safemode 状态 | 长时间处于安全模式需人工介入 |
| 读写健康 | 读写成功率、RPC 延迟 | 成功率 < 99.9% 或延迟突增需排查 |
| JVM 健康 | FGC 次数/耗时 | FGC 频繁或耗时过长需优化 GC/内存 |
| 磁盘与节点 | 坏盘、磁盘利用率 | 坏盘立即更换;单盘 > 85% 告警 |
| 业务行为 | 文件创建/查看/修改/删除异常 | 结合黑盒监控发现异常趋势 |
二 快速巡检与日常运维
三 告警与可视化落地
四 性能优化与容量规划
五 故障排查速查表