Hadoop在Linux中如何实现高可用性

Hadoop在Linux中实现高可用性的核心步骤

一、准备工作

在开始配置前，需完成以下基础准备：

环境要求：选择CentOS 7、Ubuntu 20.04等主流Linux发行版；所有节点安装JDK 8及以上版本（建议统一版本以避免兼容性问题）；为每个节点分配静态IP地址，并配置主机名与DNS解析（确保节点间可通过主机名互相访问）。
网络与安全：关闭防火墙（测试阶段）或开放必要端口（如HDFS的8020、50070端口，YARN的8030、8088端口）；配置SSH免密登录（NameNode、ResourceManager节点间需能无密码互相访问，便于故障转移时执行远程命令）。
时间同步：安装并配置NTP服务（如chrony），确保所有节点时间一致（时间偏差过大会导致ZooKeeper协调失败或数据不一致）。
ZooKeeper集群：部署3或5节点的ZooKeeper集群（奇数节点保证多数派原则），用于监控NameNode和ResourceManager的状态及协调故障转移。

二、配置NameNode高可用性（HDFS HA）

NameNode是HDFS的核心元数据管理组件，其高可用性通过Active/Standby模式+共享存储+ZooKeeper协调实现：

配置共享存储：
使用JournalNode集群（至少3节点）作为NameNode元数据的共享存储。在hdfs-site.xml中添加以下配置：

<property>
  <name>dfs.namenode.shared.edits.dir</name>
  <value>qjournal://journalnode1:8485;journalnode2:8485;journalnode3:8485/cluster1</value>
</property>
<property>
  <name>dfs.journalnode.edits.dir</name>
  <value>/path/to/journalnode/data</value>
</property>

JournalNode负责同步Active NameNode的元数据修改，Standby NameNode通过读取共享存储保持与Active节点元数据一致。

配置NameNode元数据目录：
在hdfs-site.xml中指定Active和Standby NameNode的本地元数据存储路径：

<property>
  <name>dfs.namenode.name.dir</name>
  <value>/path/to/namenode/dir1,/path/to/namenode/dir2</value>
</property>

配置HDFS服务标识：
在core-site.xml中设置HDFS的默认文件系统为nameservice（逻辑集群名），并指定ZooKeeper集群地址：

<property>
  <name>fs.defaultFS</name>
  <value>hdfs://cluster1</value>
</property>
<property>
  <name>ha.zookeeper.quorum</name>
  <value>zoo1:2181,zoo2:2181,zoo3:2181</value>
</property>

配置NameNode实例：
在hdfs-site.xml中定义nameservice下的NameNode节点（如namenode1、namenode2），并指定其RPC和HTTP地址：

<property>
  <name>dfs.ha.namenodes.cluster1</name>
  <value>namenode1,namenode2</value>
</property>
<property>
  <name>dfs.namenode.rpc-address.cluster1.namenode1</name>
  <value>namenode1:8020</value>
</property>
<property>
  <name>dfs.namenode.rpc-address.cluster1.namenode2</name>
  <value>namenode2:8020</value>
</property>
<property>
  <name>dfs.namenode.http-address.cluster1.namenode1</name>
  <value>namenode1:50070</value>
</property>
<property>
  <name>dfs.namenode.http-address.cluster1.namenode2</name>
  <value>namenode2:50070</value>
</property>

启用自动故障转移：
在hdfs-site.xml中开启自动故障转移功能：

<property>
  <name>dfs.ha.automatic-failover.enabled</name>
  <value>true</value>
</property>

启动JournalNode与NameNode：
- 在所有JournalNode节点上执行hdfs --daemon start journalnode启动JournalNode服务；
- 在主NameNode节点上执行hdfs namenode -format格式化元数据；
- 启动主NameNode：hdfs --daemon start namenode；
- 在Standby NameNode节点上执行hdfs namenode -bootstrapStandby同步主节点元数据；
- 启动Standby NameNode：hdfs --daemon start namenode。
启动ZKFC（自动故障转移控制器）：
在每个NameNode节点上执行hdfs --daemon start zkfc，ZKFC会监控NameNode的健康状态（通过ZooKeeper），当Active NameNode故障时，自动触发Standby节点接管服务。

三、配置ResourceManager高可用性（YARN HA）

ResourceManager负责YARN集群的资源调度，其高可用性通过主备ResourceManager+ZooKeeper协调实现：

配置YARN服务标识：
在core-site.xml中设置YARN的默认资源管理器地址：

<property>
  <name>yarn.resourcemanager.ha.enabled</name>
  <value>true</value>
</property>
<property>
  <name>yarn.resourcemanager.cluster-id</name>
  <value>yarn1</value>
</property>
<property>
  <name>yarn.resourcemanager.ha.rm-ids</name>
  <value>rm1,rm2</value>
</property>
<property>
  <name>yarn.resourcemanager.zk-address</name>
  <value>zoo1:2181,zoo2:2181,zoo3:2181</value>
</property>
<property>
  <name>yarn.resourcemanager.hostname.rm1</name>
  <value>resourcemanager1</value>
</property>
<property>
  <name>yarn.resourcemanager.hostname.rm2</name>
  <value>resourcemanager2</value>
</property>

配置ResourceManager故障转移：
在yarn-site.xml中设置故障转移策略（如基于ZooKeeper的自动故障转移）：

<property>
  <name>yarn.resourcemanager.ha.automatic-failover.enabled</name>
  <value>true</value>
</property>
<property>
  <name>yarn.resourcemanager.ha.fencing.method</name>
  <value>shell</value>
</property>
<property>
  <name>yarn.resourcemanager.ha.fencing.script</name>
  <value>/path/to/fence_script.sh</value>
</property>

fencing.script用于在故障转移时隔离故障节点（如杀死残留进程），避免脑裂问题。

启动ResourceManager：
在主ResourceManager节点上执行start-yarn.sh，备用ResourceManager会自动同步主节点状态。通过yarn rmadmin -getServiceState rm1命令可查看ResourceManager状态。

四、数据备份与恢复策略

定期备份元数据：
使用hdfs dfsadmin -fetchImage命令定期将NameNode的元数据下载到本地或远程存储（如NFS、S3），确保元数据不会因节点故障丢失。
数据多副本存储：
在hdfs-site.xml中设置dfs.replication（默认3副本），确保数据分布在多个DataNode上，即使某个节点故障，数据仍可从其他副本读取。
灾难恢复演练：
定期模拟NameNode或DataNode故障，验证备份数据的可用性（如从备份中恢复元数据，重新启动集群）。

五、监控与告警配置

内置监控工具：
使用Hadoop自带的Web UI（如NameNode的50070端口、ResourceManager的8088端口）监控集群状态，包括NameNode健康、ResourceManager资源使用率、DataNode数量等。
第三方监控工具：
集成Prometheus+Granafa或Ganglia，收集集群的性能指标（如CPU、内存、磁盘IO、网络带宽），设置告警规则（如NameNode CPU使用率超过80%、DataNode宕机数量超过阈值），及时通知运维人员处理。

六、测试高可用性

模拟NameNode故障：
停止主NameNode的namenode进程，观察Standby NameNode是否在几秒内自动切换为Active状态（通过jps命令查看进程状态，或访问NameNode Web UI确认）。
模拟ResourceManager故障：
停止主ResourceManager的resourcemanager进程，检查备用ResourceManager是否自动接管服务（通过YARN Web UI查看ResourceManager状态）。
模拟DataNode故障：
停止某个DataNode进程，验证数据是否仍可正常读写（通过hdfs dfs -put/hdfs dfs -get命令测试），并确认集群会自动将该DataNode标记为“dead”，不再向其分配任务。