Linux环境下Hadoop集群维护的关键维度与实操指南
jps查看NameNode、DataNode、ResourceManager等关键进程是否运行;hdfs dfsadmin -report获取HDFS集群状态(总容量、已用空间、DataNode列表);yarn node -list查看YARN节点状态;yarn application -list监控正在运行的作业。$HADOOP_HOME/logs/目录下,其中hadoop-hdfs-namenode-*.log(NameNode日志)、hadoop-yarn-resourcemanager-*.log(ResourceManager日志)、yarn-container-*.log(YARN容器日志)是核心日志文件。grep "ERROR"或grep "WARN"快速定位错误信息;结合awk提取时间戳、错误类型等关键字段(如awk '/ERROR/ {print $1, $2, $3}' namenode.log)。grep -E快速匹配高频问题。hdfs-site.xml中配置dfs.audit.logger),配合Apache Eagle进行用户行为追踪(如高频小文件读写);使用ELK Stack(Elasticsearch+Logstash+Kibana)实现日志聚合、搜索和可视化,提升分析效率。yarn.scheduler.maximum-allocation-mb设置容器最大内存,避免资源浪费)。hdfs balancer命令平衡HDFS数据分布(解决数据倾斜问题,使各DataNode存储利用率差异小于10%);通过YARN的Capacity Scheduler或Fair Scheduler实现多租户资源隔离,避免单个作业占用过多资源。iostat -x 1查看磁盘利用率,若单盘利用率持续超过80%,考虑扩容或更换SSD);调整内核参数(如增大文件描述符限制ulimit -n 65535,优化TCP缓冲区大小net.core.rmem_max=16777216,提升网络传输效率)。hdfs namenode -backup命令备份到异地,如NFS或云存储);使用HDFS快照功能(hdfs dfsadmin -allowSnapshot /path创建快照,hdfs dfs -restoreSnapshot /path snapshotName恢复数据);测试恢复流程(每月模拟数据丢失场景,验证备份有效性)。hdfs dfs -setfacl -m user:admin:rwx /sensitive_data限制敏感目录访问);开启Hadoop Audit日志(记录用户操作,如文件创建、删除,便于事后追溯)。check_process.sh(检查关键进程是否运行)、clean_log.sh(清理7天前的旧日志)、backup_metadata.sh(备份NameNode元数据)。