Debian上HDFS优化实战指南
一 硬件与操作系统基线
二 HDFS关键参数与推荐值
三 数据布局与本地化
四 运维与监控闭环
五 快速检查清单与示例配置
<property>
<name>dfs.blocksize</name>
<value>268435456</value> <!-- 256MB -->
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.handler.count</name>
<value>64</value>
</property>
<property>
<name>dfs.datanode.handler.count</name>
<value>32</value>
</property>
<property>
<name>dfs.datanode.max.transfer.threads</name>
<value>16384</value>
</property>
<property>
<name>dfs.client.read.shortcircuit</name>
<value>true</value>
</property>
<property>
<name>dfs.datanode.balance.bandwidthPerSec</name>
<value>104857600</value> <!-- 100MB/s -->
</property>
<property>
<name>fs.trash.interval</name>
<value>1440</value> <!-- 1天 -->
</property>
# 基准测试
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-*.jar TestDFSIO -write -nrFiles 10 -fileSize 1GB
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-*.jar TestDFSIO -read -nrFiles 10 -fileSize 1GB
# 集群均衡(带宽100MB/s)
hdfs balancer -threshold 10 -bandwidth 104857600