温馨提示×

Hadoop Linux环境如何监控

小樊
33
2026-01-01 06:04:53
栏目: 智能运维

Hadoop Linux 环境监控实操指南

一 监控总览与分层

  • 组件健康与服务可达:确认 NameNode、DataNode、ResourceManager、NodeManager 等关键进程存活,并能通过 Web UI 访问。
  • HDFS 状态与数据健康:容量、剩余空间、DataNode 存活、块报告、文件系统一致性。
  • YARN 资源与作业:节点资源、队列使用、应用运行与失败情况。
  • 操作系统资源:CPU、内存、磁盘 I/O、网络,识别瓶颈与异常。
  • 日志与告警:组件日志集中查看,配置阈值告警,支持快速定位。

二 快速检查与常用命令

  • 进程存活
    • 使用 jps 检查 Java 进程:NameNode、DataNode、ResourceManager、NodeManager 等是否在列。
  • HDFS 状态
    • 查看集群概览:hdfs dfsadmin -report(节点数、容量、剩余、DataNode 详情)。
    • 健康检查:hdfs fsck /(块丢失、复制不足、损坏等)。
    • 安全模式:hdfs dfsadmin -safemode get(排查启动/恢复阶段卡在 Safemode 的情况)。
  • YARN 状态
    • 节点列表:yarn node -list -all(State、Node HTTP 地址、资源容量)。
    • 应用列表:yarn application -list -appStates ALL(RUNNING、FAILED、KILLED 等)。
  • 服务日志
    • 日志目录:$HADOOP_HOME/logs,按组件与日期检索异常堆栈与 GC 告警。

三 Web 界面与关键端口

  • 访问地址与用途
    • HDFS NameNode:http://:50070(Hadoop 2.x)/ 9870(Hadoop 3.x),查看集群摘要、DataNode、存储使用、启动时间等。
    • YARN ResourceManager:http://:8088,查看集群节点、队列、应用列表与诊断。
    • DataNode:http://:50075,查看数据块、磁盘使用、线程与网络。
  • 访问建议
    • 从管理网/跳板机访问,必要时配置 防火墙/安全组 放行对应端口;多机房/容器环境注意主机名解析与 /etc/hosts 一致性。

四 第三方监控与可视化

  • 企业级平台
    • Apache AmbariCloudera Manager:一键部署、配置、监控与告警,适合 CDH/HDP 等发行版。
  • 开源时序与可视化
    • Prometheus + Grafana:通过 JMX Exporter 或 hadoop-metrics2 暴露指标,构建 HDFS/YARN/OS 统一看板与阈值告警。
  • 传统与分布式监控
    • Ganglia(指标汇聚与可视化)、Nagios/Zabbix(主机与服务可用性、阈值告警)、Datadog(SaaS 监控与集成)。

五 系统层面监控与告警实践

  • OS 指标与瓶颈定位
    • 基础工具:top/htop(CPU/内存)、iostat(磁盘 IOPS/吞吐/await)、netstat/ss(连接与端口)、nmon/sar(历史与系统活动)。
  • 日志与诊断
    • 组件日志集中在 $HADOOP_HOME/logs;结合 jpshdfs dfsadmin -reportyarn node/application -list 快速交叉验证。
  • 告警与自动化
    • 建议基于 Prometheus AlertmanagerNagios/Zabbix 配置阈值告警(如:HDFS 剩余空间低于阈值、DataNode 离线、YARN 应用失败数激增、磁盘使用率过高)。
  • 最小可行监控清单(示例阈值可按环境调整)
    • NameNode Web(9870/50070)可访问;HDFS 剩余空间 > 10%;DataNode 在线数符合预期;YARN 应用失败数近 5 分钟 = 0;磁盘使用率 < 80%

0