Debian Hadoop 压缩算法选择建议

Debian Hadoop 压缩算法选择建议

快速选择建议

实时/交互式处理与中间数据（Shuffle/中间结果）：优先选用 Snappy 或 LZ4，追求极致解压速度与较低 CPU 开销，适合高并发与低时延场景。
冷数据归档与长期存储：优先 Gzip（Zlib） 或 Bzip2，压缩率更高以节省存储；若需并行读取，Bzip2 天然可分割，Gzip 建议按块切分后存储。
大文件且需并行处理（Text/CSV/JSON 等行式数据）：选择 LZO（需建索引）或 Bzip2；LZO 速度更快但需额外索引步骤。
兼顾压缩率与速度的新场景：评估 Zstandard（Zstd），在速度与压缩率间取得良好平衡，并关注其在你的 Hadoop 版本中的编解码器可用性。
通用默认：无特殊需求时，中间数据用 Snappy，归档用 Gzip，需要可分割的大文件用 LZO/Bzip2。

常见压缩格式对比

格式	压缩率	压缩/解压速度	是否可分割	典型场景	关键要点
Gzip（Zlib/DEFLATE）	高	中/中	否	冷数据归档、读多写少	通用、兼容性好；不可分割，大文件不利于并发
Bzip2	很高	慢/慢	是	高压缩率归档、可并行读取	压缩/解压耗时；适合不追求时效的存储
LZO	中	快/快	是（需索引）	大文本并行处理	需安装 LZO 库并为文件建索引
Snappy	中	很快/很快	否	中间数据、流式/实时处理	CPU 开销低、生态广泛
LZ4	低-中	极快/极快	否	极致吞吐与低时延	解压速度优势明显，压缩率较低
Zstandard（Zstd）	中-高	快/快	视实现而定	速度+压缩率平衡	提供多级别压缩；确认编解码器可用

说明：压缩率与速度通常呈反向关系；在 Hadoop 中，是否“可分割”直接影响 Map/Reduce 的并行度与作业性能。

在 Debian 上的部署与配置要点

安装 native 库（示例）：
- Snappy：sudo apt-get install libsnappy-dev
- LZO：sudo apt-get install liblzo2-dev
- Gzip：sudo apt-get install zlib1g-dev

在 Hadoop 中启用与指定编解码器（示例）：

core-site.xml：

<property>
  <name>io.compression.codecs</name>
  <value>org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.SnappyCodec,org.apache.hadoop.io.compress.Lz4Codec</value>
</property>

MapReduce 中间结果压缩：

<property>
  <name>mapreduce.map.output.compress</name>
  <value>true</value>
</property>
<property>
  <name>mapreduce.map.output.compress.codec</name>
  <value>org.apache.hadoop.io.compress.SnappyCodec</value>
</property>

作业输出压缩：

<property>
  <name>mapreduce.output.fileoutputformat.compress</name>
  <value>true</value>
</property>
<property>
  <name>mapreduce.output.fileoutputformat.compress.codec</name>
  <value>org.apache.hadoop.io.compress.GzipCodec</value>
</property>

验证 native 支持：hadoop checknative，确保 Snappy/LZO/LZ4/Zlib/Bzip2 等库加载成功。
LZO 使用提示：需安装 hadoop-lzo 并为 LZO 文件建立索引（如 LzoIndexer）后才可分割读取。

按场景的配置示例

实时/流式数据落地与中间压缩：
- 中间数据：mapreduce.map.output.compress=true，mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec
- 存储层：若需更高压缩率，可改用 Gzip；若需可分割与速度平衡，考虑 LZO（建索引）。
冷数据归档：
- 输出：mapreduce.output.fileoutputformat.compress=true，mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.GzipCodec
- 若需并行读取归档文件，优先 Bzip2 或将大文件按块分别压缩为 Gzip。
列式存储（ORC/Parquet）：
- ORC 常用 ZLIB（Gzip）；也可结合业务在存储与计算之间选择更合适的编解码器。

实践注意事项

可分割性决定并行度：Gzip 不可分割，易形成单 Task 瓶颈；Bzip2 天然可分割；LZO 需索引后分割；Snappy/LZ4 通常不可分割。
权衡 CPU 与 I/O：压缩提升 I/O 效率但增加 CPU 负载；IO 密集型 任务更倾向 Snappy/LZ4，存储敏感 任务更倾向 Gzip/Bzip2。
版本与兼容性：不同 Hadoop 版本对 LZO/Zstd 等编解码器的内置与 native 支持存在差异，启用前请通过 hadoop checknative 与官方文档确认。

最新问答

相关标签