监控HDFS性能指标可通过以下方式配置:
-
Web界面监控
- NameNode:http://:9870(Hadoop 3.x)或http://:50070(Hadoop 2.x),查看集群状态、DataNode信息及存储使用情况。
- ResourceManager:http://:8088,监控YARN任务与资源分配。
-
命令行工具
hdfs dfsadmin -report:获取集群整体状态,包括DataNode数量、存储容量等。
hdfs fsck /:检查文件系统完整性,检测损坏数据块。
hdfs balancer:平衡集群数据负载,避免节点存储不均。
-
第三方监控工具
- Prometheus + Grafana:Prometheus采集HDFS指标(如磁盘使用率、网络流量),Grafana可视化数据并支持告警配置。
- Zabbix/Ambari/Cloudera Manager:支持集中式监控,可配置磁盘、CPU、网络等指标阈值,提供告警功能。
- Ganglia:分布式监控系统,适用于大规模集群,监控CPU、内存、I/O等性能数据。
-
JMX监控
- 在
hdfs-site.xml中启用JMX端口(如dfs.namenode.jmx-address),通过jconsole或VisualVM连接NameNode/DataNode的JMX端口,查看详细指标。
-
日志分析
- 收集NameNode和DataNode的日志(默认路径:/var/log/hadoop-hdfs/),使用ELK Stack(Elasticsearch+Logstash+Kibana)分析异常或性能瓶颈。
关键指标:存储容量、数据块状态、节点健康度、网络流量、任务执行效率等。根据需求选择工具,小型集群可优先使用Hadoop自带工具,大规模集群建议采用Prometheus+Grafana或Zabbix等专业方案。