Hadoop Linux版如何进行备份恢复

Hadoop Linux版备份恢复指南

一、备份方法

1. NameNode元数据备份

NameNode元数据（fsimage和edits文件）是HDFS的核心，备份需进入安全模式确保数据一致性：

步骤：
① 进入安全模式：sudo -u hdfs hdfs dfsadmin -safemode enter；
② 保存元数据到磁盘并重置edits：sudo -u hdfs hdfs dfsadmin -saveNamespace；
③ 复制元数据目录（如/dfs/nn/current）到备份路径：sudo -u hdfs cp -r /dfs/nn/* /nnbak/；
④ 退出安全模式：sudo -u hdfs hdfs dfsadmin -safemode leave。

2. HDFS数据备份

（1）快照功能（推荐）

快照是HDFS的只读时间点副本，不影响集群运行，适合频繁备份：

启用快照：hdfs dfsadmin -allowSnapshot /path/to/directory（如/data）；
创建快照：hdfs dfs -createSnapshot /path/to/directory snapshot_name（如snapshot_20251001）；
恢复快照：hdfs dfs -cp /path/to/directory/.snapshot/snapshot_name/path/to/file /path/to/restore（如恢复/data/user1/file.txt）。

（2）DistCp工具（跨集群/增量备份）

DistCp基于MapReduce，支持大规模数据复制和增量备份（通过-update参数）：

备份命令：hadoop distcp hdfs:///source/path hdfs:///backup/path；
增量备份：hadoop distcp -update hdfs:///source/path hdfs:///backup/path（仅复制变化的文件）。

（3）回收站机制（误删除恢复）

回收站是HDFS的内置临时存储，可恢复最近删除的文件：

启用配置：在core-site.xml中添加：

<property>
  <name>fs.trash.interval</name>
  <value>120</value> <!-- 单位：分钟，0表示禁用 -->
</property>
<property>
  <name>fs.trash.checkpoint.interval</name>
  <value>60</value> <!-- 检查点间隔，单位：分钟 -->
</property>

恢复文件：hdfs dfs -mv /user/username/.Trash/Current/path/to/deleted_file /path/to/restore。

（4）第三方工具（自动化管理）

Apache Ambari Backup：通过Web界面备份整个集群（包括HDFS、YARN、Hive等元数据），命令示例：sudo ambari-backup backup --target-dir=/backup/location；
Cloudera Manager：类似Ambari，支持增量备份和恢复，适用于CDH集群。

二、恢复方法

1. NameNode元数据恢复

步骤：
① 停止集群所有服务；
② 删除NameNode节点上的current目录和in_use.lock文件：sudo -u hdfs mv ./current/ ./bak/; sudo -u hdfs mv in_use.lock ./bak/；
③ 复制备份的元数据到current目录：sudo -u hdfs cp -r /nnbak/* /dfs/nn/；
④ 修改文件属组为hdfs：sudo -u hdfs chown hdfs:hdfs -R /dfs/nn/current/；
⑤ 启动集群服务。

2. HDFS数据恢复

（1）快照恢复（最常用）

若数据丢失或损坏，直接从快照复制文件到目标路径即可，如上述快照恢复步骤。

（2）回收站恢复（误删除）

若文件在回收站保留期内（由fs.trash.interval决定），可通过mv命令恢复，如上述回收站恢复步骤。

（3）编辑日志恢复（元数据损坏）

若fsimage损坏，需从最近的fsimage备份和edits日志中恢复：

找到删除操作前的fsimage文件（如fsimage_0000000000000000010）；
将fsimage复制到NameNode的current目录；
重启NameNode服务，自动加载fsimage并应用后续edits日志。

（4）第三方工具恢复（集群级）

使用Ambari或Cloudera Manager的恢复功能，选择备份时间点，一键恢复集群元数据和数据。

三、注意事项

数据一致性：备份前确保集群无大量写入操作，必要时进入安全模式；
定期测试：每季度验证备份数据的完整性和可恢复性（如随机恢复部分文件）；
存储安全：备份数据存储在独立存储介质（如异地HDFS集群、S3）或加密存储；
策略选择：核心数据采用“全量+增量”策略（如每周全量、每天增量），非核心数据采用全量策略；
监控日志：通过/var/log/hadoop-hdfs/目录下的日志监控备份进度和错误。