Linux里Hadoop性能如何提升

Linux上提升Hadoop性能的实用清单

一硬件与操作系统先行

硬件选型：优先为NameNode/ResourceManager配备更高规格的内存与CPU；使用多核CPU与SSD/NVMe降低I/O等待；保证节点间高带宽、低时延网络（必要时做链路聚合/绑定）。
文件与连接上限：提升进程可打开文件数，建议将ulimit -n调至≥65536；内核参数如fs.file-max=6815744、fs.aio-max-nr=1048576可缓解高并发I/O与文件句柄瓶颈。
网络栈：适度增大net.core.rmem_default/wmem_default=262144、net.core.rmem_max/wmem_max=16777216，以及net.ipv4.tcp_rmem/tcp_wmem=4096 262144 16777216，提升TCP吞吐与稳定性。
磁盘与挂载：为数据盘挂载添加noatime（必要时nodiratime），减少元数据写放大；顺序读场景可适当增大blockdev --setra预读；选择ext4/xfs等适合大文件与高并发的文件系统；I/O调度器按负载选择（如noop/deadline利于SSD与大数据顺序I/O）。
内存与Swap：大数据节点尽量避免swap，可将vm.swappiness调低（如10），或在资源充足时直接关闭swap。
时间与解析：全集群启用NTP/chrony时间同步；确保DNS正向/反向解析与FQDN配置正确，必要时启用nscd降低解析延迟。

二 HDFS关键调优

块大小与副本：根据访问模式将dfs.blocksize由128MB提升到256MB/512MB（大文件、长任务更受益）；dfs.replication默认3，在存储紧张或容灾要求低时可适度下调，注意对可用性与读取性能的影响。
并发与服务线程：提高dfs.namenode.handler.count（如按20 × logN估算，N为集群DataNode数）以提升NameNode RPC并发；按并发量适度提升dfs.datanode.handler.count。
多目录与磁盘均衡：NameNode/DataNode配置多磁盘目录以摊薄I/O；新增磁盘后使用Hadoop 3.x的HDFS Disk Balancer做磁盘间均衡：
- 生成计划：hdfs diskbalancer -plan $host
- 执行计划：hdfs diskbalancer -execute $host.plan.json
- 查询进度：hdfs diskbalancer -query $host
数据布局与本地性：启用机架感知策略，提升数据本地化比例，减少跨机架网络传输。

三 YARN与MapReduce调优

资源容量：按节点资源设置yarn.nodemanager.resource.memory-mb与yarn.nodemanager.resource.cpu-vcores；合理设置yarn.scheduler.minimum-allocation-mb与yarn.scheduler.maximum-allocation-mb，避免容器过大/过小导致碎片或调度受限。
Shuffle与内存：提升mapreduce.reduce.shuffle.parallelcopies（如50）增强拉取并发；结合内存调大mapreduce.task.io.sort.mb（如256MB）与mapreduce.task.io.sort.factor（如50）以加速归并排序；为Map/Reduce设置mapreduce.{map|reduce}.memory.mb与mapreduce.{map|reduce}.java.opts（如**-Xmx819M/-Xmx1638M**），注意JVM堆需小于容器内存并预留开销。
容器与虚拟内存检查：在部分环境下可关闭yarn.nodemanager.{pmem,vmem}-check-enabled以避免因虚拟内存超限误杀容器（需确保系统层面已做好内存与swap策略）。
Reduce数量：结合数据量与并发目标设置mapreduce.job.reduces，经验上让单个Reduce处理1–10GB数据更均衡，避免过少（长尾）或过多（调度与文件数膨胀）。

四数据布局与作业设计

压缩策略：对中间结果与输出启用压缩（如Snappy/LZO），以CPU换I/O与网络，常显著降低Shuffle与落盘成本。
小文件治理：合并小文件或使用列式格式（Parquet/ORC）与容器格式（SequenceFile），减少NameNode元数据压力与I/O放大。
数据倾斜处理：对空值/热点键进行预处理或自定义分区打散；能在Map端完成的聚合尽量使用Combiner；必要时增加Reduce并行度并做二次聚合。
数据本地化与分区：合理分区/分桶提升并行度与谓词下推效果，配合机架感知减少跨域流量。

五监控与持续优化

监控体系：部署Ganglia/Prometheus + Grafana等，持续观测NameNode RPC延迟、HDFS块报告、YARN队列与容器使用率、磁盘/网络吞吐等关键指标。
日志与诊断：集中化收集与分析Hadoop组件日志（如ELK），结合GC日志与Shuffle失败/超时等异常定位瓶颈。
容量与健康：定期执行磁盘均衡与数据均衡，关注坏盘/慢盘；必要时滚动重启异常节点，保持集群健康度。

最新问答