CentOS 上 HDFS 容错机制与落地配置
一 核心容错机制
二 关键配置步骤
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.blocksize</name>
<value>134217728</value> <!-- 128MB -->
</property>
修改后需重启相关服务使配置生效。<property>
<name>net.topology.script.file.name</name>
<value>/etc/hadoop/conf/topology.sh</value>
</property>
可用 hdfs dfsadmin -printTopology 验证拓扑是否生效。hdfs ec -enablePolicy -policy RS-6-3
hdfs ec -setPolicy -path /cold/data -policy RS-6-3
以较低存储成本获得高容错能力。三 运维与验证命令
hdfs fsck / 查看 UnderReplicatedBlocks/MissingBlocks;NameNode 会自动补齐副本,也可结合均衡器优化分布。hdfs dfsadmin -report 查看 DataNode 存活、磁盘与负载;配合 Ganglia/Prometheus/Ambari 设置告警(如 UnderReplicatedBlocks 超过阈值)。<property>
<name>fs.trash.interval</name>
<value>10080</value> <!-- 7天 -->
</property>
过期前可 hdfs dfs -restoreFile 恢复。hdfs dfsadmin -allowSnapshot /path,用 hdfs dfs -createSnapshot /path snap1 创建,误改后用快照恢复。四 场景化建议