温馨提示×

HDFS数据校验机制是什么

linux

小樊

41

2025-12-16 14:32:20

栏目: 编程语言

核心原理

HDFS在写入时对所有数据计算校验和，在读取时再次计算并比对，以发现传输或存储过程中的位翻转等损坏。校验采用CRC-32C（CRC-32的优化变体），按块内固定字节数计算，默认每512 字节数据生成一个4 字节校验和，额外存储开销低于1%。校验只能检测错误，不能自动修复数据内容本身。

校验发生的时机

写入与复制阶段：客户端将数据与校验和通过pipeline发送到多个DataNode，通常由最后一个DataNode进行校验，失败会抛出ChecksumException；DataNode之间复制块时同样执行校验。
读取阶段：客户端读取数据块时重新计算校验和并与DataNode存储的校验和比对；每个DataNode持久化保存校验日志，记录每个块的最近一次验证时间，客户端验证成功后通知DataNode更新该日志，用于发现磁盘问题。
后台周期校验：每个DataNode运行DataBlockScanner后台线程，定期扫描本地所有块以提前发现“位衰减”等介质故障。

发现损坏后的处理

客户端读取到损坏块时，先向NameNode上报该块的损坏信息并抛出ChecksumException；NameNode将该副本标记为corrupt，后续读请求将避开该副本，并从其他健康副本读取。
NameNode触发复制流程，用完好副本补齐副本数至期望值（默认3），随后删除已损坏副本，恢复数据可靠性。

相关配置与工具

关键参数：dfs.bytes-per-checksum（默认512），控制每个校验和覆盖的字节数；校验和类型为CRC-32C。
本地文件系统行为：Hadoop的LocalFileSystem会在同目录生成隐藏的**.crc文件保存校验和；若需绕过校验，可使用RawLocalFileSystem或在API中调用setVerifyChecksum(false)，命令行可用-ignoreCrc**（如：hadoop fs -get -ignoreCrc …）。
校验查看：使用命令**hadoop fs -checksum **可查看文件的校验和信息，常用于比对文件一致性。

0 赞

0 踩

最新问答

相关问答

相关标签

产品服务

地区划分

专题活动

帮助支持

关于我们

售后咨询

7*24小时在线电话：400-100-2938

7*24小时在线 QQ：800811969

关注亿速云

亿速云公众号

手机网站二维码