HDFS数据压缩如何启用

HDFS数据压缩启用指南

一前置准备

选择压缩编解码器：常用有Snappy（速度快、压缩率中）、Gzip（通用、压缩率中高）、Bzip2（压缩率高、速度慢）、LZO（需额外许可/索引、适合切片）、Zstandard（zstd）（压缩率与速度均衡、较新）。
安装系统依赖库：例如启用Snappy需安装本机库（如 CentOS 执行：sudo yum install snappy-devel）；Gzip通常已预装。
确认Hadoop集群已安装并可正常启动（后续配置需分发到所有节点并在必要时重启相关服务）。

二核心配置步骤

配置全局编解码器（core-site.xml）：声明集群可用的压缩编解码器，并可选设置默认编解码器。示例：

<configuration>
  <property>
    <name>io.compression.codecs</name>
    <value>org.apache.hadoop.io.compress.DefaultCodec,
           org.apache.hadoop.io.compress.GzipCodec,
           org.apache.hadoop.io.compress.BZip2Codec,
           org.apache.hadoop.io.compress.SnappyCodec,
           org.apache.hadoop.io.compress.LzoCodec,
           org.apache.hadoop.io.compress.ZstdCodec</value>
  </property>
  <property>
    <name>io.compression.codec.default</name>
    <value>org.apache.hadoop.io.compress.SnappyCodec</value>
  </property>
</configuration>

如需单独指定某个编解码器类，可添加如：io.compression.codec.snappy.class=org.apache.hadoop.io.compress.SnappyCodec。

分发配置并重启：将修改同步到所有节点，按需重启NameNode/DataNode/ResourceManager/NodeManager，使编解码器对全集群生效。

三在作业与工具中启用压缩

MapReduce作业常用开关（mapred-site.xml 或作业代码/命令行）：
- 开启Map输出压缩：
  - 配置：mapreduce.map.output.compress=true
  - 编解码器：mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec（或Gzip等）
- 开启Reduce输出压缩：
  - 配置：mapreduce.output.fileoutputformat.compress=true
  - 编解码器：mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec
- 命令行临时生效示例：
```
hadoop jar your-job.jar YourMainClass \
  -D mapreduce.map.output.compress=true \
  -D mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec \
  -D mapreduce.output.fileoutputformat.compress=true \
  -D mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec \
  <other_args>
```
输入压缩（可选，针对输入文件已是压缩格式）：
- 配置：mapreduce.input.fileinputformat.compress=true
- 编解码器：mapreduce.input.fileinputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec（或对应输入文件的编解码器）
说明：HDFS本身不对“文件内容”自动压缩；文件是否压缩取决于写入它的作业/工具是否启用了压缩输出（例如TextOutputFormat/SequenceFileOutputFormat等配合上述开关）。

四验证与常见问题

验证方式：
- 列表查看文件属性：hadoop fs -ls /path；若作业正确启用压缩，输出文件将按所选编解码器写入（通常可通过扩展名或作业日志/计数器确认）。
- 运行一个测试作业或简单写入验证，并检查作业计数器与最终文件大小是否符合预期。
常见问题与排查：
- 类找不到/不可用：确认编解码器JAR在CLASSPATH，且本机已安装对应本地库（如Snappy）。
- 配置未生效：检查是否所有节点配置一致，必要时重启相关服务；命令行方式可临时覆盖配置用于验证。
- 性能不理想：在压缩率/速度/资源间权衡（如交互式查询偏好Snappy/zstd，归档场景可选Gzip/Bzip2）。

最新问答

相关标签