HDFS集群扩容操作指南

一、扩容前准备

资源充足性检查：确认集群有足够的空闲资源（CPU、内存、磁盘空间）接纳新节点，避免因资源不足导致扩容失败。
配置文件一致性：确保所有NameNode和DataNode的core-site.xml、hdfs-site.xml配置文件一致（如fs.defaultFS、dfs.replication等核心参数），避免节点间通信异常。
网络与安全配置：
- 配置所有节点时间同步（使用NTP服务），避免时间差异导致的数据不一致问题；
- 实现NameNode与所有DataNode之间的SSH无密码登录，简化后续操作；
- 临时关闭防火墙（或放行HDFS相关端口，如8020、50070、50010等），确保节点间通信畅通。

在新节点上完成Hadoop安装，并将现有集群的Hadoop配置文件（core-site.xml、hdfs-site.xml）复制到/etc/hadoop/conf/目录下，确保配置与集群一致。

在新节点上执行start-dfs.sh命令，启动Hadoop服务（包括DataNode）。若集群启用了YARN，可同时启动YARN服务（start-yarn.sh）。

在NameNode上执行hdfs dfsadmin -report命令，查看集群状态。若新节点的IP地址、存储目录等信息出现在“Live DataNodes”列表中，说明节点已成功加入集群。

根据集群负载情况，调整以下核心配置项（修改hdfs-site.xml后需重启集群生效）：

新增节点后，集群数据分布可能不均匀。需执行数据平衡操作，将数据从满载节点迁移到新节点，确保各节点存储利用率均衡：

集群状态检查：再次执行hdfs dfsadmin -report，确认新节点的磁盘空间使用率、数据块数量等指标正常；
功能测试：向集群写入测试文件（如hadoop fs -put /local/file /test），检查文件是否能正常复制到新节点（可通过hadoop fs -ls /test查看文件块分布）；
性能监控：使用Ganglia、Prometheus+Grafana等工具监控集群的CPU、内存、磁盘IO、网络带宽等指标，确保扩容未引入性能瓶颈。

数据备份：扩容前务必备份重要数据，避免操作失误导致数据丢失；
低峰时段操作：扩容过程可能影响集群性能，建议在业务低峰期进行；
版本兼容性：确保新节点的Hadoop版本与现有集群一致，避免兼容性问题；
黑白名单管理：若需将节点加入黑名单（dfs.hosts.exclude），需重启集群生效；若从黑名单移除，执行hdfs dfsadmin -refreshNodes即可。