Hadoop怎样在Linux上实现高可用

在Linux上实现Hadoop的高可用性（High Availability, HA）主要涉及配置NameNode和ResourceManager的高可用性、使用ZooKeeper进行状态监控和故障转移、以及配置数据备份和恢复策略。以下是详细的步骤和配置说明：

环境准备

操作系统：推荐使用CentOS 7或Ubuntu 20.04。
Java版本：需要安装JDK 8。
网络配置：确保所有节点有静态IP地址，并正确配置主机名和DNS。

安装Hadoop

下载并解压Hadoop安装包到指定目录。
配置环境变量，如 HADOOP_HOME 和 JAVA_HOME。

配置Hadoop高可用性

NameNode高可用性

配置主NameNode和备用NameNode：使用Zookeeper进行故障检测和自动切换。

配置文件：

core-site.xml：

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://ns1</value>
  </property>
  <property>
    <name>ha.zookeeper.quorum</name>
    <value>hadoop01:2181,hadoop02:2181,hadoop03:2181</value>
  </property>
  <property>
    <name>dfs.namenode.ha.automatic-failover.enabled</name>
    <value>true</value>
  </property>
</configuration>

hdfs-site.xml：

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/export/data/hadoop/namenode</value>
  </property>
  <property>
    <name>dfs.namenode.rpc-address.namenode1</name>
    <value>hadoop01:9000</value>
  </property>
  <property>
    <name>dfs.namenode.http-address.namenode1</name>
    <value>hadoop01:9870</value>
  </property>
  <property>
    <name>dfs.namenode.shared.edits.dir</name>
    <value>qjournal://hadoop01:8485;hadoop02:8485;hadoop03:8485/ns1</value>
  </property>
  <property>
    <name>dfs.ha.automatic-failover.enabled</name>
    <value>true</value>
  </property>
  <property>
    <name>dfs.client.failover.proxy.provider.ns1</name>
    <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
  </property>
</configuration>

ResourceManager高可用性

配置主ResourceManager和备用ResourceManager：在 yarn-site.xml 中配置：

<configuration>
  <property>
    <name>yarn.resourcemanager.ha.enabled</name>
    <value>true</value>
  </property>
  <property>
    <name>yarn.resourcemanager.cluster-id</name>
    <value>yarn</value>
  </property>
  <property>
    <name>yarn.resourcemanager.ha.rm-ids</name>
    <value>rm1,rm2</value>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname.rm1</name>
    <value>hadoop01</value>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname.rm2</name>
    <value>hadoop02</value>
  </property>
  <property>
    <name>yarn.resourcemanager.zk-address</name>
    <value>hadoop01:2181,hadoop02:2181,hadoop03:2181</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.resourcemanager.recovery.enabled</name>
    <value>true</value>
  </property>
  <property>
    <name>yarn.resourcemanager.store.class</name>
    <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
  </property>
</configuration>

ZooKeeper集群

配置ZooKeeper集群：用于协调Hadoop集群中各个组件的状态和配置信息。

配置文件：zoo.cfg

dataDir=/var/lib/zookeeper
clientPort=2181
server.X:
  port=2888
  dataDir=/var/lib/zookeeper/data
  clientPort=2182

JournalNode

部署JournalNode：用于支持NameNode的数据同步。
启动JournalNode：使用 hdfs --daemon start journalnode 命令启动JournalNode。

启动Hadoop集群

格式化NameNode：在主NameNode上执行 hdfs namenode -format。
启动ZooKeeper集群：使用 zkServer.sh start 命令启动ZooKeeper。
启动JournalNode：使用 hdfs --daemon start journalnode 命令启动JournalNode。
启动NameNode和Standby NameNode：使用 hdfs --daemon start namenode 和 hdfs namenode -bootstrapStandby 命令分别启动主备NameNode。
启动ResourceManager和NodeManager：使用 start-yarn.sh 命令启动ResourceManager和各个NodeManager。

验证高可用性

使用 jps 命令检查NameNode和ResourceManager是否正常运行。
模拟节点故障，验证自动切换功能是否正常。

监控和告警配置

使用工具如Ganglia、Prometheus等监控集群状态，设置告警机制。

通过以上步骤，可以在Linux上成功配置Hadoop的高可用性，确保集群在部分节点故障时仍能继续运行。