CentOS HDFS集群扩容策略
core-site.xml(如fs.defaultFS指向NameNode)、hdfs-site.xml(如副本因子dfs.replication)等核心配置文件;调整网络设置(关闭防火墙或放行HDFS端口:NameNode默认50070/9870、DataNode默认50010/50020)、配置SSH免密登录(便于NameNode与新节点通信)。hadoop/etc/hadoop目录下创建/更新dfs.hosts文件,添加新节点的主机名或IP;修改hdfs-site.xml,设置dfs.hosts参数指向该文件;将配置分发至所有节点,后续通过hdfs dfsadmin -refreshNodes命令刷新,确保新节点能正常注册。ntpdate工具),避免因时间差导致心跳检测失败。hdfs-site.xml、core-site.xml等配置文件复制到新节点的Hadoop配置目录(如/etc/hadoop/conf),确保配置一致性。start-dfs.sh(或单独执行hadoop-daemon.sh start datanode),启动DataNode进程;若集群启用了YARN,还需启动yarn-daemon.sh start nodemanager。http://namenode_host:9870/dfshealth.html#tab-datanode)或命令hdfs dfsadmin -report,查看新节点的状态(如“Live”表示存活),确认其已成功加入集群。hdfs balancer命令触发数据均衡(如hdfs balancer -threshold 10,其中threshold为阈值,默认10%,表示节点存储使用率差异超过10%时启动平衡);平衡过程会将数据从满节点迁移至新节点,实现存储资源均匀分布。hdfs balancer -status命令查看平衡状态(如“Running”表示进行中、“Idle”表示完成);平衡过程可能耗时较长,需避免在业务高峰期执行。/dev/sdb),执行fdisk /dev/sdb分区、mkfs.xfs /dev/sdb1格式化(推荐XFS文件系统,支持大文件和高并发);创建挂载点(如/data/newdisk),编辑/etc/fstab实现开机自动挂载。hdfs-site.xml文件,添加新存储目录到dfs.datanode.data.dir属性(如<property><name>dfs.datanode.data.dir</name><value>/data/olddisk,/data/newdisk</value></property>);重启DataNode服务(hadoop-daemon.sh restart datanode)使配置生效。hdfs dfsadmin -report命令查看DataNode的存储使用情况,确认新存储目录已被纳入集群。hdfs dfsadmin -report确认所有节点(包括新节点)状态为“Live”;检查NameNode和DataNode的日志(如/var/log/hadoop-hdfs/hadoop-hdfs-namenode.log),确保无报错信息。dfs.namenode.handler.count(NameNode线程池大小,默认10)以提升元数据操作性能,调整dfs.blocksize(块大小,默认128M/256M)以适应大文件存储需求。