centos hbase压缩技术应用

CentOS 上 HBase 压缩技术应用指南

一算法选型与适用场景

Snappy：压缩/解压速度快、CPU 开销低，适合热数据/实时读写与温数据场景，综合表现通常优于 LZO。
LZ4：速度极快、延迟更低，压缩率略低于 Snappy，适合超低延迟与高吞吐场景。
GZIP：压缩率最高，适合冷数据/归档，但压缩/解压慢、CPU 占用高。
LZO：压缩率与速度介于 Snappy 与 GZIP 之间，需额外安装 LZO 库，兼容性需验证。
说明：HBase 列族可同时配置压缩算法与数据块编码（如 NONE/PREFIX/DIFF/FAST_DIFF/ROW_INDEX_V1），二者可叠加使用以进一步节省空间。

二配置与生效方式

建表时指定列族压缩与编码（HBase Shell）

create 't1',
  {NAME => 'f1', COMPRESSION => 'SNAPPY', DATA_BLOCK_ENCODING => 'FAST_DIFF'},
  {NAME => 'f2', COMPRESSION => 'LZ4'}

修改已有表列族的压缩/编码（HBase Shell）

alter 't1', {NAME => 'f1', COMPRESSION => 'SNAPPY', DATA_BLOCK_ENCODING => 'FAST_DIFF'}

使既有数据生效：压缩/编码的修改只对新写入的 HFile 生效，存量文件需在下一次 compaction 后生效。
验证设置：
- Shell 中 desc 查看列族属性（COMPRESSION、DATA_BLOCK_ENCODING）。
- 通过 Java API 读取 TableDescriptor/ColumnFamilyDescriptor 校验。
补充：HBase 默认支持的压缩算法通常为 NONE/GZ/SNAPPY；如使用 LZO/ZSTD 等需确保 Hadoop/HBase 环境包含相应编解码器。

三部署与运维要点

库与环境准备：在 CentOS 节点安装所选算法的本地库（如 LZO 的 native 库），确保 RegionServer/客户端均具备对应编解码器；集群启用 Kerberos 时，操作前完成 kinit 鉴权。
压缩与编码协同：压缩作用于 HFile 数据块，编码作用于 data block 的 Key 重复消除，二者可叠加，通常先选编码再选压缩以获得更佳空间收益。
生效节奏：修改列族压缩/编码后，存量 HFile 会在后续的 compaction 中转换；如需尽快生效，可手动触发 major compaction（注意业务窗口与 I/O 冲击）。
监控与回退：观察 CPU 使用率、写放大、查询 P95/P99 延迟、StoreFile 数量与大小 等指标；若压缩导致 CPU 压力过大或延迟上升，可回退到 NONE/LZ4 并分列族逐步调整。

四场景化配置建议

实时/低延迟写入与查询：列族采用 LZ4 或 Snappy；配合 FAST_DIFF/PREFIX 编码与合理的 BlockSize（如 64KB） 以平衡吞吐与缓存命中。
日志/埋点/时序温数据：列族采用 Snappy，在保持低 CPU 的同时获得较好压缩率。
历史归档/冷数据：列族采用 GZIP 获取最高压缩率，结合 FAST_DIFF 进一步减少 Key 冗余。
多列族异构策略：对热点列族用 LZ4/Snappy，对归档列族用 GZIP，实现按列族差异化压缩。

最新问答