Debian下Hadoop性能调优技巧有哪些

Debian下Hadoop性能调优要点

一操作系统与硬件基础

提升文件描述符与网络并发：在 /etc/security/limits.conf 提高 nofile，在 /etc/sysctl.conf 调整 fs.file-max、net.core.somaxconn，避免“打开文件过多/连接队列不足”的瓶颈。
降低交换影响：如业务允许，尽量关闭或严格限制 swap，减少抖动与GC停顿放大。
磁盘与调度器：优先使用 SSD；Linux I/O 调度器建议 SSD 用 noop/deadline，HDD 用 deadline/cfq，降低寻道与调度开销。
网络能力：尽量使用 10GbE 或更高带宽，减少 Shuffle/DistCp 等阶段的网络瓶颈。
存储布局：多磁盘分别挂载，计算与存储分离；HDFS 与 YARN 的中间目录（如 dfs.datanode.data.dir、yarn.nodemanager.local-dirs、yarn.nodemanager.log-dirs、mapreduce.cluster.local.dir）配置到不同物理盘，分散 I/O。

二 HDFS关键调优

NameNode 并发与内存：提高 dfs.namenode.handler.count 以增强并发请求处理能力；按元数据规模设置堆内存，生产上常将 NameNode 堆设置为物理内存的约 3/4，并合理设置 -XX:MetaspaceSize/-XX:MaxMetaspaceSize，避免 Metaspace 溢出。
数据块与副本：根据访问模式调整 dfs.blocksize（大块利于顺序吞吐，小块利于随机/小文件）；按可靠性与读性能权衡 dfs.replication（默认 3 副本）。
短路读取与本地性：启用 短路读取（short-circuit reads） 减少网络往返；通过 Balancer 均衡数据分布，提升数据本地化比例。
回收站：开启 fs.trash.interval 与 fs.trash.checkpoint.interval，减少误删恢复成本与异常重试。
压测与验证：使用 TestDFSIO 做 HDFS 读写基准测试，依据结果回调块大小、并发与副本策略。

三 YARN与MapReduce调优

资源与容器：按节点资源设置 yarn.nodemanager.resource.memory-mb、yarn.nodemanager.resource.cpu-vcores；合理设定 yarn.scheduler.minimum-allocation-mb / maximum-allocation-mb 与 yarn.scheduler.fair.assignmultiple，避免资源碎片与分配不均。
虚拟内存比：根据工作负载设置 yarn.nodemanager.vmem-pmem-ratio（如 2.1），防止容器因虚拟内存超限被误杀。
Shuffle与排序：优化 mapreduce.task.io.sort.factor、mapreduce.task.io.sort.mb，提升归并/排序效率，缩短 Shuffle 耗时。
内存与JVM：为 ResourceManager/NodeManager 配置合适的堆与 GC 策略（如 -Xms/-Xmx、-XX:+UseG1GC），避免与容器内存重叠与 OOM。
MapReduce细节：合理使用 Combiner 减少网络传输；根据数据倾斜采用 Salting、自定义 Partitioner、重新分区；控制 mapreduce.job.reduces 提升并行度；避免大量小文件；开启 mapreduce.map.output.compress / SnappyCodec 降低 Shuffle 流量。

四数据布局与存储格式

高效文件格式：优先 列式格式（Parquet、ORC），提升扫描与压缩效率，减少 I/O。
压缩策略：链路中启用 Snappy/LZO 等压缩（如 mapreduce.map.output.compress=true；codec=SnappyCodec），在 CPU 与 I/O 之间取得平衡。
小文件治理：合并/归档小文件（如 CombineFileInputFormat），降低 NameNode 元数据压力与 I/O 放大。
数据倾斜治理：通过 Salting、重分区、Key 打散 等手段均衡各 Task 处理量，避免“长尾任务”。

五监控与压测闭环

组件监控：利用 ResourceManager/NodeManager/DataNode 内置 Web 与 JMX 指标观察资源使用、任务运行与 RPC 延迟。
系统监控：部署 Ganglia、Nagios、Prometheus 等，持续跟踪 CPU、内存、磁盘 IOPS/吞吐、网络带宽与丢包 等关键指标。
基准与回溯：例行执行 TestDFSIO 与典型作业压测，建立“配置—指标—调优”的闭环；出现异常时结合 GC 日志、线程 dump、堆快照 快速定位。

最新问答