Linux上Hadoop资源如何管理

Linux环境下Hadoop资源管理的核心框架与实践
在Linux系统中，Hadoop的资源管理以**YARN（Yet Another Resource Negotiator）**为核心框架，负责集群资源的统一调度与分配，同时涵盖HDFS存储资源管理、用户权限控制及系统调优等方面。以下是具体管理流程与关键策略：

一、基础环境准备：配置Hadoop集群与系统环境

在启动资源管理前，需完成Hadoop集群部署与环境配置：

安装Hadoop：从Apache官网下载稳定版本（如3.3.1），解压至指定目录（如/usr/local/hadoop-3.3.1），并通过source /etc/profile使HADOOP_HOME等环境变量生效。
配置核心参数：
- core-site.xml：设置HDFS URI（fs.defaultFS=hdfs://namenode-host:9000），定义集群默认文件系统。
- hdfs-site.xml：配置HDFS副本数（dfs.replication=3，生产环境建议3副本）、NameNode/Datanode数据目录（dfs.namenode.name.dir/dfs.datanode.data.dir）。
- yarn-site.xml：指定ResourceManager地址（yarn.resourcemanager.hostname=resourcemanager-host）、NodeManager资源（yarn.nodemanager.resource.memory-mb/yarn.nodemanager.resource.cpu-vcores）及调度器类型（默认CapacityScheduler）。
- mapred-site.xml：设置MapReduce框架为YARN模式（mapreduce.framework.name=yarn）。
启动集群：格式化HDFS（hdfs namenode -format，首次启动需执行），启动HDFS（start-dfs.sh）与YARN（start-yarn.sh）服务。

二、YARN资源调度管理：核心策略与配置

YARN的资源管理主要通过资源容器（Container）实现，关键配置包括：

资源配额限制：
- 通过yarn.scheduler.maximum-allocation-mb（默认8GB）和yarn.scheduler.maximum-allocation-vcores（默认4核）设置单个容器的最大内存与CPU核数，避免单个任务占用过多资源。
- 配置NodeManager总资源（yarn.nodemanager.resource.memory-mb/yarn.nodemanager.resource.cpu-vcores），建议预留10%-20%资源供系统服务（如NodeManager自身）使用。
调度器选择与队列配置：
- 容量调度器（CapacityScheduler）：适用于固定比例资源分配（如生产环境分default队列70%、custom队列30%），通过yarn.scheduler.capacity.root.queues定义队列，yarn.scheduler.capacity.root.<queue-name>.capacity设置队列资源占比。
- 公平调度器（FairScheduler）：适用于动态共享资源（如测试环境按需分配），通过fair-scheduler.xml配置队列权重（如yarn.scheduler.fair.default.queue.schedulingPolicy=fair）。
任务优先级：通过mapreduce.job.priority（HIGH/Normal/Low）设置作业优先级，结合调度器策略调整资源分配顺序。

三、HDFS存储资源管理：数据可靠性与效率

HDFS作为Hadoop的存储层，其资源管理聚焦于数据可靠性与访问效率：

副本机制：通过dfs.replication设置副本数（生产环境建议3副本，测试环境可设为1），确保数据容错。
块大小调整：通过dfs.block.size设置块大小（如128MB或256MB），大块适合顺序读（如日志分析），小块适合随机读（如小文件查询）。
数据均衡：使用hdfs balancer命令均衡集群节点数据分布，避免单节点存储压力过大。

四、权限与安全管理：保障资源访问可控

Kerberos认证：通过Kerberos实现用户身份认证（如kinit命令获取票据），防止未授权访问Hadoop集群。
LDAP用户管理：集成LDAP系统（如OpenLDAP）统一管理Hadoop用户与用户组，简化权限配置。
HDFS权限控制：通过hdfs dfs -chmod（修改文件权限）、hdfs dfs -chown（修改文件所有者）命令，设置用户对目录/文件的访问权限（如750权限限制仅所有者可写）。

五、监控与调优：提升资源利用率

监控工具：
- Web UI：通过ResourceManager Web UI（http://resourcemanager-host:8088）查看集群状态、应用队列使用情况；通过NameNode Web UI（http://namenode-host:50070）查看HDFS存储信息。
- 命令行工具：使用yarn application -list查看运行中的应用，yarn node -list查看NodeManager节点状态。
- 第三方工具：使用Ambari、Ganglia等工具实现集群集中监控。
日志管理：
- 启用日志聚合（yarn.log-aggregation-enable=true），将NodeManager日志集中存储至HDFS，方便故障排查（yarn logs -applicationId <appId>查看应用日志）。
系统调优：
- 操作系统层面：关闭swap分区（vm.swappiness=0）、增加文件描述符上限（ulimit -n 65536）、调整内核参数（如net.core.somaxconn=65535）。
- Hadoop配置调优：调整Map/Reduce任务内存（mapreduce.map.memory.mb/mapreduce.reduce.memory.mb）、JVM堆大小（mapreduce.map.java.opts/mapreduce.reduce.java.opts），优化Shuffle过程（如mapreduce.shuffle.spill.compress=true启用溢写压缩）。

六、容错与稳定性保障

ResourceManager高可用（HA）：配置主备ResourceManager（yarn.resourcemanager.ha.enabled=true），通过ZooKeeper实现自动故障转移，确保集群不间断运行。
NodeManager重连：设置yarn.resourcemanager.nm.liveness-monitor.interval-ms=10000（10秒检测一次），yarn.nm.client.connection.max-retries=3（最多重试3次），增强节点容错能力。
动态资源分配：启用yarn.scheduler.dynamic-resource-allocation.enabled=true，允许应用程序根据负载动态申请/释放资源，提高集群利用率。