Ubuntu 环境下 HDFS 大文件存储管理指南
一 核心原理与适用场景
二 关键配置与容量规划
<configuration>
<!-- 大文件顺序读推荐 256MB -->
<property>
<name>dfs.blocksize</name>
<value>268435456</value>
</property>
<!-- 生产环境副本数 -->
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<!-- 每卷预留 10GB -->
<property>
<name>dfs.datanode.du.reserved</name>
<value>10737418240</value>
</property>
</configuration>
提示:修改块大小仅对新写入文件生效;已存在文件需通过 DistCp 等工具重写以生效新块大小。三 日常运维命令与块分布核查
hdfs dfs -mkdir -p /data/big
hdfs dfs -put large_file.bin /data/big/
hdfs dfs -ls -h /data/big
hdfs dfs -du -h /data/big
hdfs dfs -get /data/big/large_file.bin ./
hdfs dfs -setrep -w 3 /data/big/large_file.bin
hdfs fsck /data/big/large_file.bin -files -blocks -locations
hdfs dfsadmin -report
四 性能与稳定性优化
五 常见场景与操作建议
hadoop distcp -D dfs.blocksize=268435456 -m 50 hdfs://src/big/ hdfs://dst/big/