CentOS HDFS集群维护指南

CentOS HDFS集群维护指南

服务启停与状态检查：通过脚本命令管理集群服务，在NameNode节点执行start-dfs.sh启动所有NameNode和DataNode服务，stop-dfs.sh停止服务；使用jps命令查看NameNode、DataNode等进程是否运行；通过hdfs dfsadmin -report获取集群详细状态（包括DataNode数量、存储容量、剩余空间等）。
节点生命周期管理：
- 添加DataNode：确保新节点与集群时间同步（使用NTP服务）、配置SSH无密码登录（NameNode到新节点）、关闭防火墙或开放HDFS相关端口（如50070、50010）；将NameNode节点的/etc/hadoop/conf/目录下的core-site.xml、hdfs-site.xml复制到新节点相同目录；编辑新节点hdfs-site.xml，添加dfs.namenode.datanode.registration.ip-hostname-check false（避免IP/主机名校验问题）；在新节点执行hadoop-daemon.sh start datanode启动服务，回到NameNode节点执行hdfs dfsadmin -report验证新节点是否加入。
- 安全移除DataNode：若需永久移除节点（如硬件故障、集群缩容），在NameNode节点执行hdfs dfsadmin -decommissionNode <目标节点主机名/IP>，等待数据迁移完成；执行hdfs dfsadmin -refreshNodes使配置生效。

常用监控工具：
- 命令行工具：hdfs dfsadmin -report查看集群整体状态；hdfs fsck /检查文件系统健康状况（识别损坏文件块、丢失副本）；hdfs dfs -df -h /查看HDFS根目录空间使用情况（总容量、已用容量、剩余容量）。
- Web界面：通过NameNode的Web界面（默认http://<namenode-host>:9870）查看集群拓扑、节点状态、存储指标等。
- 第三方工具：使用Prometheus+Grafana（可视化监控）、Zabbix（告警）、Ambari（集群管理）等工具，实现对HDFS的长期监控与预警。
关键检查项：定期检查NameNode和DataNode的日志文件（位于$HADOOP_HOME/logs目录，如NameNode日志为hadoop-<username>-namenode-<hostname>.log），使用grep、awk等工具搜索“ERROR”“WARN”等关键字，及时发现异常；检查系统资源使用情况（CPU、内存、磁盘I/O），避免资源瓶颈影响集群性能。

参数调优：根据集群规模和任务需求调整Hadoop配置参数，如dfs.replication（副本数量，默认3，可根据存储成本调整）、dfs.namenode.handler.count（NameNode处理请求数能力，默认10，高并发场景可增大）、dfs.blocksize（数据块大小，默认128MB，大文件场景可调整为256MB）。
避免小文件问题：小文件会增加NameNode负载（NameNode需将文件元数据存储在内存中），应尽量避免；若存在大量小文件，可通过合并小文件工具（如Hadoop Archive，HAR）减少文件数量。
数据本地性优化：通过增加DataNode数量，使数据块尽可能存储在客户端附近，减少网络传输开销；合理分配DataNode与客户端的物理位置，提高数据本地化率。
硬件升级：根据集群负载情况，适时升级服务器硬件配置（如使用更快的CPU、更大的内存、更高性能的硬盘（如SSD）、更高速的网络设备（如10Gbps以太网）），提升集群读写性能。

权限控制：HDFS使用类似Linux的权限模型，通过hdfs dfs -chmod（修改文件/目录权限，如hdfs dfs -chmod 755 /user/data）、hdfs dfs -chown（修改文件/目录所有者，如hdfs dfs -chown user:group /user/data）命令设置权限；支持ACL（访问控制列表），通过hdfs dfs -setfacl（添加ACL规则，如hdfs dfs -setfacl -m user:admin:rwx /user/data）、hdfs dfs -getfacl（查看ACL规则）命令实现更精细的权限控制。
安全认证：启用Kerberos验证机制，加强集群身份认证，防止未授权访问；配置Kerberos客户端，确保用户访问HDFS时需要进行身份验证。
审计日志：开启HDFS审计日志功能（在core-site.xml中配置hadoop.security.audit.logger参数），记录用户的操作（如文件创建、删除、修改），便于后续追踪和审计。

数据完整性检查：定期使用hdfs fsck /命令检查HDFS文件系统的一致性，识别损坏的文件块和丢失的副本；根据fsck输出结果，手动修复损坏的文件（如hdfs fsck /path/to/corrupted/file -move将损坏文件移动到/lost+found目录）或恢复丢失的副本（通过数据迁移或重新复制）。
数据备份与恢复：使用HDFS快照功能（在NameNode上执行hdfs dfsadmin -allowSnapshot <目录路径>开启目录快照，hdfs dfs -createSnapshot <目录路径> <快照名称>创建快照）备份重要数据；或通过hdfs dfs -cp命令手动复制数据到其他存储介质（如本地磁盘、对象存储）；数据丢失时，可通过快照、编辑日志（EditLog）或备份文件恢复数据。

常见故障场景及解决方法：
- 节点失联：若NameNode或DataNode无法访问，首先检查节点是否存活（ping <节点IP>）；使用jps命令查看进程是否运行；检查防火墙是否放行HDFS相关端口（如50070、50010）；检查SSH无密码登录是否配置正确。
- 数据块丢失：通过hdfs fsck /命令检查丢失的数据块，若数据块丢失且无副本，可从备份中恢复；若有多个副本，HDFS会自动复制副本至其他节点以满足副本数量要求。
- NameNode宕机：查看NameNode日志（/var/log/hadoop-hdfs/hadoop-<username>-namenode-<hostname>.log），寻找错误原因（如内存溢出、磁盘空间不足）；若为内存溢出，调整hadoop-env.sh中的HADOOP_NAMENODE_OPTS参数（如-Xmx4g增加堆内存）；若为磁盘空间不足，清理NameNode日志或DataNode数据目录；重启NameNode服务（systemctl start hadoop-hdfs-namenode）。
- DataNode无法启动：检查DataNode日志（/var/log/hadoop-hdfs/hadoop-<username>-datanode-<hostname>.log），常见原因包括磁盘空间不足（df -h检查）、配置文件错误（核对hdfs-site.xml中的dfs.datanode.data.dir路径是否正确）、网络问题（pingNameNode节点）；解决对应问题后，重启DataNode服务（systemctl start hadoop-hdfs-datanode）。

最新问答