HDFS的数据恢复机制是什么

HDFS的数据恢复机制是Hadoop分布式文件系统的核心容错功能，通过数据冗余、快照、回收站、元数据管理及工具辅助等多层次策略，确保数据在节点故障、误操作或损坏时能够快速恢复，保障数据的高可用性与持久性。

1. 数据冗余（副本机制）

HDFS通过数据块复制实现冗余，将每个数据块（默认128MB）存储在多个DataNode上（默认副本数3）。当某个DataNode故障时，NameNode会自动检测到副本数不足，并从其他正常节点复制数据块到新节点，恢复副本数量。副本放置策略遵循机架感知原则（第一份放在上传节点，第二份放在不同机架，第三份放在同机架另一节点），确保机架或节点故障时数据仍可访问。

2. 快照机制

快照是HDFS提供的只读时间点副本，用于快速恢复文件系统或目录到某一历史状态。创建快照时，HDFS无需复制数据块，仅需记录元数据（如文件权限、块位置），因此创建成本低。当数据被误删除、修改或损坏时，可通过hdfs dfs -cp /path/.snapshot/snapshot_name/file /restore/path命令从快照恢复数据。

3. 回收站机制

HDFS的回收站（.Trash目录）用于临时存储误删除的文件，避免数据永久丢失。删除文件时，文件会被移动到回收站的Current子目录，并根据fs.trash.interval（默认0，表示立即删除；建议设置为120秒以上）定期清理。通过hdfs dfs -mv /user/root/.Trash/Current/deleted_file /original/path命令，可将回收站中的文件恢复到原路径。

4. 租约恢复与块修复

租约恢复：当客户端写入文件时，NameNode会授予租约（Lease），若客户端崩溃或未及时续订（默认超时时间为60秒），NameNode会触发租约恢复，关闭文件并释放租约，允许其他客户端继续写入。
块恢复：若数据块未处于COMPLETE状态（如写入过程中客户端崩溃），NameNode会将未完成的块加入recoverBlocks队列，通知相关DataNode同步块数据，确保存储的副本内容一致。

5. 元数据恢复（NameNode故障）

NameNode的元数据（fsimage：文件系统镜像；edits：操作日志）是HDFS的核心。通过以下方式恢复元数据：

Secondary NameNode：定期合并fsimage和edits日志，生成新的fsimage并上传至NameNode。若NameNode故障，可使用Secondary NameNode的最新fsimage恢复（需停止集群，替换数据目录后重启）。
Checkpoint恢复：通过hdfs dfsadmin -saveNamespace命令手动保存fsimage，或在NameNode启动时自动加载最新的fsimage和edits日志，恢复元数据。

6. 数据备份与恢复工具

DistCp：Hadoop分布式复制工具，用于跨集群或集群内大规模数据复制，支持全量/增量备份。通过hdfs distcp hdfs://source:8020/source_path hdfs://target:8020/target_path命令，可将数据从源集群复制到目标集群，用于恢复丢失或损坏的数据。
手动恢复：若自动恢复失败，可从本地存储、云端或其他数据源重新生成数据并上传至HDFS。

7. 数据完整性校验

HDFS通过CRC-32校验和检测数据损坏：写入数据时计算校验和并存储在元数据中；读取数据时重新计算校验和并与存储值对比，若不一致则判定数据损坏。校验和可提前发现问题，但需结合备份或副本机制恢复数据。