Hadoop Linux环境如何监控
小樊
33
2026-01-01 06:04:53
Hadoop Linux 环境监控实操指南
一 监控总览与分层
- 组件健康与服务可达:确认 NameNode、DataNode、ResourceManager、NodeManager 等关键进程存活,并能通过 Web UI 访问。
- HDFS 状态与数据健康:容量、剩余空间、DataNode 存活、块报告、文件系统一致性。
- YARN 资源与作业:节点资源、队列使用、应用运行与失败情况。
- 操作系统资源:CPU、内存、磁盘 I/O、网络,识别瓶颈与异常。
- 日志与告警:组件日志集中查看,配置阈值告警,支持快速定位。
二 快速检查与常用命令
- 进程存活
- 使用 jps 检查 Java 进程:NameNode、DataNode、ResourceManager、NodeManager 等是否在列。
- HDFS 状态
- 查看集群概览:hdfs dfsadmin -report(节点数、容量、剩余、DataNode 详情)。
- 健康检查:hdfs fsck /(块丢失、复制不足、损坏等)。
- 安全模式:hdfs dfsadmin -safemode get(排查启动/恢复阶段卡在 Safemode 的情况)。
- YARN 状态
- 节点列表:yarn node -list -all(State、Node HTTP 地址、资源容量)。
- 应用列表:yarn application -list -appStates ALL(RUNNING、FAILED、KILLED 等)。
- 服务日志
- 日志目录:$HADOOP_HOME/logs,按组件与日期检索异常堆栈与 GC 告警。
三 Web 界面与关键端口
- 访问地址与用途
- HDFS NameNode:http://:50070(Hadoop 2.x)/ 9870(Hadoop 3.x),查看集群摘要、DataNode、存储使用、启动时间等。
- YARN ResourceManager:http://:8088,查看集群节点、队列、应用列表与诊断。
- DataNode:http://:50075,查看数据块、磁盘使用、线程与网络。
- 访问建议
- 从管理网/跳板机访问,必要时配置 防火墙/安全组 放行对应端口;多机房/容器环境注意主机名解析与 /etc/hosts 一致性。
四 第三方监控与可视化
- 企业级平台
- Apache Ambari、Cloudera Manager:一键部署、配置、监控与告警,适合 CDH/HDP 等发行版。
- 开源时序与可视化
- Prometheus + Grafana:通过 JMX Exporter 或 hadoop-metrics2 暴露指标,构建 HDFS/YARN/OS 统一看板与阈值告警。
- 传统与分布式监控
- Ganglia(指标汇聚与可视化)、Nagios/Zabbix(主机与服务可用性、阈值告警)、Datadog(SaaS 监控与集成)。
五 系统层面监控与告警实践
- OS 指标与瓶颈定位
- 基础工具:top/htop(CPU/内存)、iostat(磁盘 IOPS/吞吐/await)、netstat/ss(连接与端口)、nmon/sar(历史与系统活动)。
- 日志与诊断
- 组件日志集中在 $HADOOP_HOME/logs;结合 jps 与 hdfs dfsadmin -report、yarn node/application -list 快速交叉验证。
- 告警与自动化
- 建议基于 Prometheus Alertmanager 或 Nagios/Zabbix 配置阈值告警(如:HDFS 剩余空间低于阈值、DataNode 离线、YARN 应用失败数激增、磁盘使用率过高)。
- 最小可行监控清单(示例阈值可按环境调整)
- NameNode Web(9870/50070)可访问;HDFS 剩余空间 > 10%;DataNode 在线数符合预期;YARN 应用失败数近 5 分钟 = 0;磁盘使用率 < 80%。