Linux系统里Hadoop如何监控

Linux系统下Hadoop监控方法

1. Hadoop自带监控工具

命令行工具：通过内置命令快速获取集群状态，常用命令包括：
- jps：查看Hadoop关键进程（NameNode、DataNode、ResourceManager、NodeManager等）是否运行；
- hdfs dfsadmin -report：生成HDFS详细状态报告（总容量、已用空间、DataNode列表等）；
- yarn node -list：列出YARN集群中所有NodeManager及其状态；
- yarn application -list：查看当前运行的YARN应用程序；
- mapred job -list：查看MapReduce作业列表（Hadoop 2.x及以上版本建议使用YARN命令替代）。这些命令适合快速排查节点状态、资源使用等基础问题。
Web UI界面：Hadoop各组件提供可视化Web界面，直观展示集群状态：
- NameNode：http://<namenode-host>:9870（Hadoop 3.x，默认端口）或http://<namenode-host>:50070（Hadoop 2.x），可查看HDFS存储使用、DataNode列表、文件系统操作等；
- ResourceManager：http://<resourcemanager-host>:8088，展示YARN资源分配、运行中应用程序、队列状态等；
- DataNode：http://<datanode-host>:9864（Hadoop 3.x）或http://<datanode-host>:50075（Hadoop 2.x），查看单个DataNode的存储和心跳信息。

2. 第三方监控工具

Apache Ambari：开源Hadoop管理平台，提供集群部署、配置管理、实时监控（CPU、内存、磁盘、网络）、告警等功能，支持Hadoop生态组件（HDFS、YARN、MapReduce、Hive等），适合大规模集群的集中式管理。
Prometheus + Grafana：
- Prometheus：开源时间序列数据库，通过Hadoop Exporter（如HDFS Exporter、YARN Exporter）采集Hadoop指标；
- Grafana：可视化工具，对接Prometheus数据源，创建仪表板展示集群状态（如HDFS存储使用率、YARN资源利用率、节点CPU负载），支持设置告警规则（如节点宕机、资源耗尽时发送邮件/短信通知）。
Ganglia：分布式监控系统，适合大规模Hadoop集群，可监控节点CPU、内存、磁盘、网络等资源使用情况，通过Web界面展示集群整体状态，支持历史数据查询。
Zabbix：企业级开源监控解决方案，支持监控Hadoop节点资源（CPU、内存、磁盘）、服务状态（NameNode、ResourceManager），提供告警功能（邮件、短信、Slack等），可与Zabbix Proxy结合实现分布式监控。
Nagios：老牌监控工具，通过插件（如Nagios Hadoop Plugin）监控Hadoop集群状态（节点存活、HDFS存储、YARN应用），支持告警和性能趋势分析，适合传统IT环境。

3. JMX监控

Hadoop组件（如YARN、HDFS）支持通过JMX（Java Management Extensions）暴露内部指标，需在配置文件（如yarn-site.xml、hdfs-site.xml）中开启远程监控：

添加JMX端口配置（如yarn.nodemanager.jmx-port=9999）；
配置安全认证（如SSL、用户名密码）；
使用JConsole、VisualVM等工具连接JMX端口，或通过Prometheus的JMX Exporter采集指标，实现深入的性能分析（如GC次数、线程池状态、内存使用详情）。

4. 日志监控

Hadoop组件日志集中存储在$HADOOP_HOME/logs目录下（如NameNode日志hadoop-<user>-namenode-<hostname>.log、ResourceManager日志yarn-<user>-resourcemanager-<hostname>.log），通过以下方式监控：

tail -f命令实时追踪日志（如tail -f /opt/hadoop/logs/hadoop-root-namenode-master.log），快速发现异常；
grep命令过滤关键字（如grep -i "error" /opt/hadoop/logs/*.log），定位错误信息；
结合ELK Stack（Elasticsearch+Logstash+Kibana）实现日志收集、存储、可视化，支持关键词告警和趋势分析。

5. 自定义监控脚本

通过Shell、Python等编写脚本，定期检查Hadoop状态并发送告警：

示例：使用curl获取NameNode状态（http://<namenode-host>:9870/jmx?qry=Hadoop:service=NameNode,name=NameNodeInfo），解析JSON数据判断是否“healthy”；
使用mail、sendmail或第三方工具（如钉钉机器人、企业微信）发送告警；
脚本可集成到cron定时任务中（如每5分钟运行一次），实现自动化监控。

1. Hadoop自带监控工具

2. 第三方监控工具

3. JMX监控

4. 日志监控

5. 自定义监控脚本

最新问答

相关标签