CentOS HDFS高可用方案探讨

CentOS环境下HDFS高可用（HA）方案设计与实现

HDFS高可用是保障大数据集群稳定运行的核心需求，通过消除NameNode单点故障，确保在节点故障时数据访问不中断。以下是针对CentOS系统的具体高可用方案设计及关键实施要点：

一、核心组件与架构设计

HDFS高可用的基础架构由四大核心组件构成，协同工作实现故障检测、元数据同步与自动切换：

NameNode（NN）：分为Active（主节点，处理客户端请求）和Standby（备用节点，同步主节点元数据）两个角色，部署在不同物理节点以避免单点故障。
JournalNode（JN）：集群中部署奇数个（通常3个），用于存储NameNode的编辑日志（edits log）和文件系统镜像（fsimage），确保Active与Standby节点元数据一致。
ZooKeeper（ZK）集群：提供分布式协调服务，监控NameNode状态，触发自动故障转移（Automatic Failover, AFO），避免脑裂问题。
ZooKeeper Failover Controller（ZKFC）：运行在每个NameNode节点上的守护进程，负责与ZooKeeper通信，监控NameNode健康状态，并在故障时协调切换。

二、关键配置步骤

1. 前置准备

节点规划：至少需要4台CentOS服务器（2个NameNode、3个JournalNode、1个ZooKeeper集群，可重叠部署，如NameNode1同时作为ZooKeeper节点）。
软件安装：所有节点安装JDK（1.8及以上）、Hadoop（版本需一致，建议3.x及以上），并配置环境变量。
网络配置：确保节点间SSH免密登录，防火墙开放必要端口（如NameNode RPC端口8020、JournalNode端口8485、ZooKeeper端口2181）。

2. 配置JournalNode集群

JournalNode是元数据同步的核心，需在所有JournalNode节点上执行：

编辑hdfs-site.xml，添加JournalNode数据目录配置：

<property>
  <name>dfs.journalnode.edits.dir</name>
  <value>/var/lib/hadoop/hdfs/journal</value>
</property>

启动JournalNode服务（所有节点）：

$HADOOP_HOME/sbin/hadoop-daemon.sh start journalnode

3. 配置ZooKeeper集群

ZooKeeper用于监控NameNode状态，需在3个节点上部署：

解压ZooKeeper并配置zoo.cfg（所有节点一致）：

dataDir=/var/lib/zookeeper
clientPort=2181
server.1=node1:2888:3888
server.2=node2:2888:3888
server.3=node3:2888:3888

在每个节点的dataDir目录下创建myid文件（内容为节点ID，如node1对应1）。
启动ZooKeeper服务（所有节点）：
```
zkServer.sh start
```

4. 配置HDFS高可用参数

修改core-site.xml与hdfs-site.xml，定义高可用行为：

core-site.xml：指定HDFS默认文件系统为高可用集群，并配置ZooKeeper地址：

<property>
  <name>fs.defaultFS</name>
  <value>hdfs://mycluster</value>
</property>
<property>
  <name>ha.zookeeper.quorum</name>
  <value>node1:2181,node2:2181,node3:2181</value>
</property>

hdfs-site.xml：定义NameNode角色、共享编辑日志路径、故障转移策略等：

<property>
  <name>dfs.nameservices</name>
  <value>mycluster</value>
</property>
<property>
  <name>dfs.ha.namenodes.mycluster</name>
  <value>nn1,nn2</value>
</property>
<property>
  <name>dfs.namenode.rpc-address.mycluster.nn1</name>
  <value>node1:8020</value>
</property>
<property>
  <name>dfs.namenode.rpc-address.mycluster.nn2</name>
  <value>node2:8020</value>
</property>
<property>
  <name>dfs.namenode.shared.edits.dir</name>
  <value>qjournal://node1:8485;node2:8485;node3:8485/mycluster</value>
</property>
<property>
  <name>dfs.client.failover.proxy.provider.mycluster</name>
  <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<property>
  <name>dfs.ha.fencing.methods</name>
  <value>sshfence</value>
</property>
<property>
  <name>dfs.ha.fencing.ssh.private-key-files</name>
  <value>/home/hadoop/.ssh/id_rsa</value>
</property>

5. 格式化与启动集群

格式化NameNode：仅在第一个NameNode（如node1）上执行：
```
hdfs namenode -format
```
同步元数据：将Active NameNode的元数据复制到Standby NameNode：
```
hdfs namenode -bootstrapStandby
```
启动服务：依次启动JournalNode、NameNode、DataNode、ZKFC（所有节点）：
```
start-dfs.sh  # 启动HDFS服务（包含NameNode、DataNode、JournalNode）
```

6. 验证高可用性

查看集群状态：
```
hdfs dfsadmin -report
```
确认两个NameNode状态分别为active和standby。
模拟故障切换：手动停止Active NameNode（如node1）：
```
hadoop-daemon.sh stop namenode
```
观察Standby NameNode（node2）是否自动切换为active（可通过Web界面或命令确认）。

三、关键优化与注意事项

机架感知配置：在core-site.xml中添加机架感知脚本，将数据块副本分布在不同机架，提升容错性与读取性能：
```
<property>
  <name>topology.script.file.name</name>
  <value>/etc/hadoop/conf/topology.sh</value>
</property>
```
脚本需根据节点IP返回机架ID（如/rack1、/rack2）。
内存与线程优化：根据集群规模调整NameNode内存（建议≥8GB）和DataNode线程数（如dfs.datanode.handler.count设置为16），避免因资源不足导致性能瓶颈。
监控与告警：部署Prometheus+Grafana监控集群状态（如NameNode CPU、内存、磁盘使用率，DataNode存活状态），设置告警阈值（如NameNode内存超过90%时触发告警），及时发现并处理故障。
数据备份：定期备份NameNode元数据（如fsimage与edits文件）到异地存储，防止元数据丢失。
定期维护：定期检查JournalNode数据一致性（通过hdfs dfsadmin -metasave命令），更新Hadoop版本以修复安全漏洞与性能问题。

通过以上方案，CentOS环境下的HDFS集群可实现高可用性，确保在NameNode故障时快速切换，保障数据服务的连续性。