在Linux中监控Hadoop集群可通过以下方式:
- Hadoop自带工具
- 命令行工具:
jps查看关键进程,hdfs dfsadmin -report查看HDFS状态,yarn node -list查看节点状态。
- Web界面:NameNode(http://:9870)、ResourceManager(http://:8088)等查看集群状态。
- 第三方监控工具
- Prometheus+Grafana:Prometheus采集指标,Grafana可视化,支持自定义告警。
- Ambari:提供集群管理、监控及日志分析,支持多组件集成。
- Ganglia/Zabbix/Nagios:分布式监控系统,监控节点资源、网络等。
- 日志与自定义脚本
- 查看Hadoop日志($HADOOP_HOME/logs)定位问题。
- 编写脚本定期检查状态,通过邮件发送告警。