Linux下Hadoop的常见监控工具及特点
Hadoop自身提供了一系列内置工具,无需额外安装,适合快速查看集群基础状态:
hdfs dfsadmin -report查看DataNode数量、总容量及可用空间;hdfs fsck /检测HDFS文件系统健康度(如损坏文件或数据块);yarn node -list列出NodeManager节点信息;yarn application -list查看正在运行的YARN应用程序。http://namenode-host:9870(Hadoop 3.x)提供HDFS状态界面;ResourceManager通过http://resourcemanager-host:8088展示YARN任务调度与资源分配情况。Hadoop的YARN等模块支持通过JMX(Java Management Extensions)接口采集性能数据。需在Hadoop配置文件(如yarn-site.xml)中开启JMX远程访问,设置端口(如10200)及安全认证信息,再通过JConsole、VisualVM或Prometheus的JMX Exporter获取指标。
Hadoop组件的日志默认存储在$HADOOP_HOME/logs目录下(如NameNode日志为hadoop-username-namenode-hostname.log)。可通过tail -f实时追踪日志动态,或用grep搜索特定关键字(如“ERROR”“WARN”)快速定位异常,适合排查具体问题。
通过Shell、Python等编写脚本,定期采集服务器的CPU占用率、内存使用量、磁盘空间等基础指标,或调用Hadoop命令行工具获取集群状态(如hdfs dfsadmin -report)。脚本可将结果输出到日志文件,或通过邮件、短信发送告警通知,适合定制化监控需求。