Ubuntu HDFS的监控与日志分析

Ubuntu 环境下 HDFS 的监控与日志分析

一监控总览与快速检查

命令行健康检查
- 查看集群与节点概览：hdfs dfsadmin -report（关注 Live datanodes、Capacity/Used/Remaining、Configured Capacity）。
- 文件系统健康与块分布：hdfs fsck /（关注 Missing blocks、Corrupt blocks、Under-replicated blocks；必要时用 -files -blocks -locations 定位块与节点）。
- 进程存活：jps（应见到 NameNode、DataNode，HA 环境还会有 JournalNode/DFSZKFailoverController）。
- 安全模式：如处于安全模式，使用 hdfs dfsadmin -safemode leave 退出后再做检查。
Web UI
- NameNode Web UI：Hadoop 2.x 默认 50070，Hadoop 3.x 默认 9870；可查看 DataNodes、Datanode Summary、FS Namesystem、Startup Progress、Snapshots 等。
第三方监控
- 常用方案：Prometheus + Grafana、Ganglia、Zabbix、Datadog 等，用于指标采集、可视化与告警。

二关键监控指标与阈值建议

容量与副本
- Remaining%：低于 15% 建议扩容或清理；Capacity Used% 持续接近 100% 易触发写入失败。
- Under-replicated blocks：不为 0 需排查 DataNode 下线、磁盘满、网络分区等；Corrupt blocks 应为 0。
节点与块健康
- Live datanodes 数量与预期一致；Dead/Decommissioning 节点需立即处理。
- Total/Replicated/Under-replicated/Blocks 趋势稳定；块报告延迟或抖动可能预示 NameNode 压力或网络问题。
性能与负载
- RPC 处理线程利用率（如 dfs.namenode.handler.count、dfs.datanode.handler.count 相关指标）长期接近饱和，需扩容或调参。
- GC 时间与次数（JVM 监控）：长暂停影响 NameNode 响应与客户端写入时延。
- 磁盘 IOPS/吞吐/使用率 与 网络带宽：单盘或单链路饱和会导致慢写/慢读与副本修复延迟。

三日志定位与分析方法

日志位置与内容
- 常见路径：/var/log/hadoop-hdfs/（如 namenode-.log、datanode-.log、secondarynamenode-.log）；亦可能位于 $HADOOP_HOME/logs/。
- 关键线索：ERROR/WARN、BlockMissing、DiskError、SafeModeException、ReplicaNotFoundException、IPC timeout、GC 长暂停等。
命令行快速分析
- 实时跟踪：tail -f /var/log/hadoop-hdfs/namenode-*.log | grep --color=auto ERROR。
- 错误聚类与计数：按时间窗口统计高频异常，例如
  - grep “ERROR” /var/log/hadoop-hdfs/namenode-*.log | awk ‘{print $1,$2,$4}’ | sort | uniq -c | sort -nr | head
  - 按线程/类定位：grep “ERROR” … | awk -F’[][]’ ‘{print $2}’ | sort | uniq -c | sort -nr | head
- 块与副本问题定位：hdfs fsck /path -files -blocks -locations；结合日志中 BlockMissing 的 Block ID 反查对应 DataNode。
日志系统与动态调级
- HDFS 使用 Log4j；可在 log4j.properties/hadoop-env.sh 中调整日志级别与输出（如将 org.apache.hadoop.hdfs 提升到 DEBUG 以抓取块上报细节，事后记得恢复）。
集中化与可视化
- 启用 日志聚合（如使用 YARN Log Aggregation）将各节点日志汇总到 HDFS，便于统一检索与留存。
- 采用 ELK（Elasticsearch + Logstash + Kibana） 或 Grafana Loki 搭建日志平台，做 关键字告警、错误趋势、Top N 异常 面板。

四告警规则与自动化巡检示例

建议的关键告警
- Remaining% < 15%、Corrupt blocks > 0、Under-replicated blocks > 0、Live datanodes 低于预期、NameNode/DataNode 进程宕机、RPC 队列持续 > 80%、JVM Full GC 次数/时长异常、磁盘使用率 > 85%、NameNode 长时间处于 SafeMode。
Prometheus + Grafana 示例
- 抓取配置（prometheus.yml）：
  - scrape_configs:
    - job_name: ‘hadoop’ static_configs:
      - targets: [‘namenode:9870’,‘datanode1:9864’,‘datanode2:9864’]
- 常用告警规则（示例）：
  - groups:
    - name: hdfs-alerts rules:
      - alert: HDFSRemainingLow expr: (1 - hadoop_namenode_fsnamesystem_CapacityRemaining / hadoop_namenode_fsnamesystem_CapacityTotal) > 0.15 for: 5m labels: severity=critical annotations: summary=“HDFS 剩余容量低于 15%”
      - alert: HDFSCorruptBlocks expr: hadoop_namenode_fsnamesystem_CorruptBlocks > 0 for: 0m labels: severity=critical annotations: summary=“存在损坏块”
      - alert: HDFSStuckInSafeMode expr: hadoop_namenode_fsnamesystem_Safemode == 1 for: 10m labels: severity=warning annotations: summary=“NameNode 长时间处于安全模式”
简易巡检脚本（示例）
- 每日巡检并输出异常摘要：
  - #!/usr/bin/env bash set -e NN=http://namenode:9870 echo “=== $(date) HDFS 巡检 ===” hdfs dfsadmin -report | egrep ‘Live datanodes|Configured Capacity|DFS Used%|DFS Remaining%’ hdfs fsck / -files -blocks -locations 2>&1 | egrep ‘Status|Missing|Corrupt|Under-replicated’ | head curl -s $NN/jmx?qry=Hadoop:service=NameNode,name=FSNamesystem | grep -E ‘CapacityRemaining|CapacityTotal|CorruptBlocks|UnderReplicatedBlocks|Safemode’
- 将输出接入 日志平台 或 告警通道（邮件/企业微信/钉钉）即可实现自动化。

最新问答

相关标签