如何监控 Ubuntu Hadoop 运行状态

如何监控Ubuntu Hadoop运行状态

监控Ubuntu环境下Hadoop集群的运行状态，需结合自带工具、命令行操作、第三方工具及日志分析，实现对集群状态、资源使用、组件健康的全方位把控。以下是具体方法：

一、Hadoop自带监控工具

1. Hadoop Web界面

Hadoop各核心组件提供可视化Web界面，直观展示集群状态：

NameNode Web UI：默认端口为50070（Hadoop 2.x）或9870（Hadoop 3.x），可查看HDFS命名空间、文件系统树、DataNode节点列表及存储容量使用情况。
ResourceManager Web UI：默认端口8088，展示YARN集群资源分配（CPU、内存）、正在运行的应用程序（如MapReduce、Spark任务）、节点管理器（NodeManager）状态。
NodeManager Web UI：默认端口50470，显示单个节点的资源使用（CPU、内存、磁盘）、运行的容器（Container）列表。

2. 命令行工具

通过终端命令快速检查集群状态：

jps命令：列出所有Java进程，确认Hadoop关键组件是否运行（如NameNode、DataNode、ResourceManager、NodeManager）。正常运行时应显示对应进程ID及名称。
hdfs dfsadmin -report命令：生成HDFS详细状态报告，包含集群总容量、已使用空间、剩余空间及各DataNode的存储使用、连接状态。
yarn node -list命令：列出YARN集群中所有NodeManager的地址、状态（如“RUNNING”表示正常）及资源容量。
yarn application -list命令：查看当前正在运行的YARN应用程序，包括应用ID、名称、状态（如“RUNNING”“FINISHED”）、提交用户。

二、第三方监控工具

1. Apache Ambari

功能全面的Web管理工具，支持Hadoop集群的集中部署、配置管理及监控。提供集群健康概览、组件状态（如HDFS、YARN、Hive）、资源使用趋势图，支持报警配置（如邮件、短信通知）。

2. Prometheus + Grafana

Prometheus：开源时间序列数据库，通过Hadoop JMX接口或Exporter（如Node Exporter、Hadoop Exporter）收集集群指标（如CPU使用率、内存占用、HDFS块数量）。
Grafana：可视化工具，对接Prometheus数据源，创建仪表盘展示集群状态（如实时资源使用率、任务完成数），支持设置报警规则（如内存超过阈值触发邮件通知）。

3. Ganglia

分布式监控系统，适合大规模Hadoop集群，支持实时监控节点资源（CPU、内存、磁盘I/O、网络带宽），并通过Web界面展示集群整体状态。可与Grafana集成增强可视化能力。

三、日志分析

Hadoop组件日志是排查问题的核心依据，日志文件默认位于**$HADOOP_HOME/logs**目录下：

关键日志文件：
- NameNode：hadoop-*-namenode-*.log
- DataNode：hadoop-*-datanode-*.log
- ResourceManager：yarn-*-resourcemanager-*.log
- NodeManager：yarn-*-nodemanager-*.log
常用操作：
- 实时查看日志：tail -f /path/to/hadoop/logs/*.log（如tail -f /usr/local/hadoop/logs/hadoop-*-namenode-*.log）。
- 搜索错误信息：grep -i "error" /path/to/hadoop/logs/*.log（过滤出包含“error”的日志行）。

四、系统监控工具

使用Ubuntu自带工具监控集群节点的基础资源使用情况：

top/htop：实时查看系统进程的资源占用（CPU、内存），识别高负载进程（如某个YARN应用程序占用过多内存）。
iostat：监控磁盘I/O性能（如读写速率、I/O等待时间），判断DataNode磁盘是否成为瓶颈。
netstat/ss：查看网络连接状态（如端口监听、连接数），确保节点间网络通信正常（如NameNode与DataNode之间的RPC连接）。

五、自定义监控脚本

根据业务需求编写脚本，定期检查集群状态并触发报警：

示例脚本（检查NameNode状态）：

#!/bin/bash
NAMENODE_STATUS=$(curl -s http://<namenode-host>:9870/dfshealth.html | grep "Healthy")
if [[ -z "$NAMENODE_STATUS" ]]; then
  echo "NameNode is DOWN!" | mail -s "Hadoop Alert: NameNode Down" admin@example.com
else
  echo "NameNode is Healthy"
fi

功能扩展：可扩展脚本检查DataNode数量、YARN资源使用率、磁盘空间等指标，通过邮件、短信或企业微信发送报警通知。

通过以上方法的组合使用，可实现Ubuntu Hadoop集群的全链路监控，及时发现并解决节点故障、资源瓶颈等问题，保障集群稳定运行。