Hadoop在Ubuntu上的任务调度如何优化

Hadoop在Ubuntu上的任务调度优化指南

一调度器与队列设计

选择合适的调度器：多租户与资源隔离优先选用Capacity Scheduler或Fair Scheduler；单一简单队列可用FIFO。Capacity 支持多队列与配额，Fair 强调作业间公平分配。
队列与配额示例（Capacity Scheduler）：创建default、highpriority、lowpriority三个队列并设定容量，保证关键业务有稳定资源。
队列映射与优先级：通过yarn.scheduler.capacity.queue-mappings按用户或应用映射到对应队列；提交作业时设置作业优先级，确保高优作业先跑。
资源预留：为关键业务开启ReservationSystem，在高峰期保障启动与运行资源。
动态资源调整：启用动态资源分配（按需增减容器），提升集群弹性与利用率。

二资源配置与容器规划

节点资源边界：正确设置yarn.nodemanager.resource.memory-mb与yarn.nodemanager.resource.cpu-vcores，使 NodeManager 上报真实可分配资源。
容器规格约束：配置yarn.scheduler.minimum-allocation-mb/vcores与maximum-allocation-mb/vcores，避免容器过小导致调度碎片或过大超出节点能力。
容器与JVM关系：容器内存应大于JVM堆，常见经验是堆占容器的约80%；为 Map/Reduce 分别设置mapreduce.map.memory.mb/mapreduce.reduce.memory.mb与mapreduce.map.java.opts/mapreduce.reduce.java.opts，避免OOM与过度浪费。
示例（示意值，需按节点内存与业务实测调整）：
- yarn.nodemanager.resource.memory-mb=16384
- yarn.nodemanager.resource.cpu-vcores=16
- yarn.scheduler.minimum-allocation-mb=1024
- yarn.scheduler.maximum-allocation-mb=8192
- mapreduce.map.memory.mb=4096；mapreduce.map.java.opts=-Xmx3276m
- mapreduce.reduce.memory.mb=8192；mapreduce.reduce.java.opts=-Xmx6553m

三数据本地性与并行度

提升数据本地性：尽量让任务在数据所在节点执行，减少网络开销；通过mapreduce.job.locality.wait控制等待本地数据的时长，平衡调度速度与本地命中率。
块大小与分片：根据数据规模与访问模式调整dfs.blocksize（如256MB/512MB），并合理设置InputSplit（相关参数如mapred.min.split.size、mapred.max.split.size），使 Map 任务数与集群并行度匹配。
并行度估算：Map 数≈输入总大小/块大小；Reduce 数≈目标并发度或按业务阶段拆分需求设定，避免过多 Reduce 造成调度与 Shuffle 压力。
副本与读取：在带宽允许与成本可控前提下，适度调整dfs.replication，兼顾可靠性与读取并发。

四 Shuffle 压缩与推测执行

Shuffle 与中间数据压缩：开启mapreduce.map.output.compress与mapreduce.output.fileoutputformat.compress，选用Snappy/LZO等低开销算法，显著降低磁盘 I/O 与网络传输。
合并与排序缓冲：根据中间数据量调大io.sort.mb，并调整io.sort.spill.percent与io.sort.factor，减少 spill 次数与合并压力，提升 Shuffle 效率。
推测执行：启用mapreduce.map.speculative与mapreduce.reduce.speculative，对“拖后腿”任务自动备份，降低长尾任务影响。
Reduce 启动时机：通过mapreduce.job.reduce.slowstart.completedmaps控制 Reduce 预启动比例，常见取值0.7–0.9，避免过早占用资源或过晚拉长作业总时长。

五监控调优流程与作业编排

监控与诊断：使用YARN Web UI（默认8088）、命令行（如yarn application -list/-status）、以及yarn logs -applicationId <app_id>定位瓶颈；结合Ganglia/Prometheus等做容量与性能趋势分析。
持续调优闭环：基于监控指标（容器等待、数据本地率、Shuffle 耗时、GC 时间、慢任务比例）迭代队列配额、容器规格、并行度与压缩策略。
作业编排与依赖：对多步骤工作流使用Apache Oozie或Apache Airflow管理依赖、定时与重试，减少人工介入与调度冲突。
替代计算框架：对迭代计算/低延迟场景，考虑Tez或Spark替代传统 MapReduce，以获得更优的调度与执行效率。

最新问答