Debian系统下Hadoop集群的监控方法可分为自带工具、第三方工具、命令行工具及自定义脚本四大类,以下是具体实施方案:
Hadoop自身提供了一系列Web界面和命令行工具,适合快速查看集群基础状态:
http://NameNode-IP:50070(HDFS管理界面),可查看集群整体状态、数据节点列表、文件系统健康状况及存储容量等信息。http://ResourceManager-IP:8088,用于监控YARN资源分配情况、正在运行的MapReduce/Spark作业状态及历史作业记录。hdfs dfsadmin -report:列出所有数据节点的状态(如节点IP、存储使用量、连接状态);yarn node -list:查看集群中所有YARN节点的信息(如节点ID、状态、资源容量);yarn application -list:显示当前正在运行的YARN应用程序(如作业ID、名称、状态、启动时间);yarn logs -applicationId <application_id>:获取指定作业的详细日志(需替换为实际作业ID)。第三方工具提供更全面的集中化监控与可视化能力,适合大规模集群:
sudo apt-get install ambari-server安装服务器,启动后访问http://ambari-server-ip:8080,按向导添加Hadoop集群即可。check_hadoop)监控Hadoop服务的可用性(如NameNode、DataNode是否存活),支持阈值告警(如DataNode宕机时触发短信通知);命令行工具适合自动化脚本调用或快速排查问题:
hdfs dfsadmin -report:获取HDFS集群的详细报告(包括数据节点数量、存储容量、块分布);yarn application -kill <application_id>:终止指定的YARN作业(需替换为实际作业ID);mapred job-list:列出当前正在运行的MapReduce作业(适用于MapReduce模式)。hadoop-env.sh文件(如export HADOOP_NAMENODE_OPTS="-Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=9001 -Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.ssl=false"),开启JMX接口以便监控系统收集指标。prometheus.yml中添加Hadoop Exporter的地址(如- targets: ['hadoop-exporter-ip:9000']),确保Prometheus能拉取Hadoop指标。hdfs_storage_used_percent > 90),当指标触发阈值时,通过邮件、短信或钉钉发送通知。core-site.xml、hdfs-site.xml、yarn-site.xml)正确设置,尤其是fs.defaultFS、yarn.resourcemanager.hostname等关键参数,避免监控工具无法连接;