Hadoop任务Ubuntu上如何监控

Hadoop任务在Ubuntu上的监控方法

1. Hadoop自带监控工具

Hadoop提供了基础的Web界面和命令行工具，适合快速查看集群状态：

Web界面：通过浏览器访问NameNode（默认http://namenode-IP:50070）、ResourceManager（默认http://resourcemanager-IP:8088）的Web界面，直观查看HDFS文件系统状态、YARN资源分配及作业进度。
命令行工具：使用内置命令获取实时信息，如hdfs dfsadmin -report查看HDFS节点健康状况、yarn node -list查看NodeManager列表、yarn application -list查看运行中的作业、yarn logs -applicationId <ID>查看指定作业的日志。

2. 第三方监控工具

针对大规模集群或需要高级功能的场景，可选择以下工具：

Apache Ambari：提供集中式Web界面，支持Hadoop生态组件（HDFS、YARN、MapReduce等）的监控、配置与管理，支持告警和性能分析。
Ganglia+Grafana：Ganglia作为分布式监控系统收集集群指标（CPU、内存、磁盘等），Grafana负责数据可视化，适合大规模集群的性能趋势分析。
Prometheus+Grafana：Prometheus通过Hadoop Exporter采集指标（如JVM内存、任务队列长度），Grafana创建仪表盘展示关键指标（如YARN资源利用率、HDFS存储容量），支持告警规则配置。
Zabbix：企业级监控解决方案，支持监控Hadoop节点状态、网络流量、磁盘I/O等，可自定义告警阈值和通知方式。

3. Linux系统工具辅助监控

结合Linux原生工具，可监控Hadoop集群的基础资源使用情况：

top/htop：实时查看系统CPU、内存占用，识别资源瓶颈进程（如YARN NodeManager、HDFS DataNode）。
vmstat：查看系统内存、交换分区、分页统计，判断是否存在内存溢出或频繁交换。
free：快速查看内存总量、已用/可用内存（关注available值，反映系统可用内存）。
sar：收集历史性能数据（如内存使用趋势），使用sar -r查看内存变化。

4. JMX监控机制

通过JMX（Java Management Extensions）采集Hadoop组件的详细性能指标（如JVM堆内存、GC次数、线程数）：

配置步骤：修改Hadoop组件（如YARN ResourceManager）的配置文件（如yarn-site.xml），开启JMX远程访问（设置yarn.nodemanager.jmx-port参数），并配置安全认证（如SSL）。

5. 日志文件监控

Hadoop日志是排查问题的关键，主要日志文件位于$HADOOP_HOME/logs目录（如NameNode日志hadoop-<user>-namenode-<hostname>.log、YARN ResourceManager日志yarn-<user>-resourcemanager-<hostname>.log）：

实时追踪：使用tail -f <log-file>命令动态查看日志内容。
关键词搜索：使用grep命令查找特定错误（如grep -i "error" <log-file>）或警告信息，快速定位问题。

6. 自定义监控脚本

通过编写脚本（如Shell、Python），定期采集集群指标并触发告警：

Shell脚本示例：使用hdfs dfsadmin -report获取DataNode数量，判断是否低于阈值；使用yarn application -list获取运行中作业的数量，若超过阈值则发送邮件告警。
Python脚本示例：结合Hadoop RESTful API（如ResourceManager的/ws/v1/cluster/apps接口），使用pycurl库获取JSON格式的作业状态数据，解析后存入数据库或发送告警。