Hadoop数据库怎样实现数据压缩与解压

发布时间：2026-07-01 16:20:06 来源：亿速云阅读：85 作者：小樊栏目：数据库

在 Hadoop 生态中，“数据库压缩与解压”通常指 HDFS 存储压缩 和 计算组件（如 Hive、HBase、Spark）中的数据压缩。Hadoop 本身不是传统关系型数据库，而是分布式存储与计算框架，因此“压缩”更多体现在文件层面和计算过程中的数据交换层面。

下面系统说明 Hadoop 中数据压缩与解压的实现方式。

一、Hadoop 支持的压缩算法

Hadoop 支持多种压缩算法，常见如下：

压缩格式	是否可切分	压缩率	压缩/解压速度	典型用途
Gzip	否	高	中	普通文件存储
Bzip2	✅	很高	慢	归档数据
LZO	✅（需索引）	中	快	大文件、MapReduce
Snappy	否	中	非常快	中间数据、HBase
Zstandard (Zstd)	否	高	快	Hive、Spark（新版支持）

✅ 可切分：压缩后文件可被多个 Map Task 并行读取

二、HDFS 文件压缩（存储层）

1. 写入压缩文件

在 MapReduce / Hive / Spark 中写入 HDFS 时，可直接指定压缩格式。

MapReduce 示例（Java）

Configuration conf = new Configuration();
conf.setBoolean("mapreduce.output.fileoutputformat.compress", true);
conf.set("mapreduce.output.fileoutputformat.compress.codec",
        "org.apache.hadoop.io.compress.GzipCodec");

生成的 HDFS 文件：

/output/part-r-00000.gz

三、Hive 中的数据压缩与解压

1. 存储压缩（表数据压缩）

创建压缩表（ORC + Snappy）

CREATE TABLE user_info (
    id BIGINT,
    name STRING
)
STORED AS ORC
TBLPROPERTIES (
    "orc.compress"="SNAPPY"
);

✅ 写入时自动压缩
✅ 查询时自动解压

2. 中间结果压缩（MapReduce 阶段）

SET hive.exec.compress.intermediate=true;
SET mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;

3. 输出结果压缩

SET hive.exec.compress.output=true;
SET mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.GzipCodec;

四、Spark 中的数据压缩

1. Spark 输出压缩

spark.conf.set("spark.sql.parquet.compression.codec", "snappy")

RDD 输出压缩：

rdd.saveAsTextFile(
  "hdfs:///output",
  classOf[org.apache.hadoop.io.compress.GzipCodec]
)

五、HBase 中的数据压缩

HBase 是 Hadoop 生态中的“数据库”，压缩在列族级别配置。

1. 创建压缩表

create 'user',
{NAME => 'info', COMPRESSION => 'SNAPPY'}

支持的压缩：

NONE
GZ
SNAPPY
LZO
ZSTD

2. 修改已有表

alter 'user', {NAME => 'info', COMPRESSION => 'SNAPPY'}
major_compact 'user'

✅ HBase 自动完成压缩与解压
✅ 对客户端透明

六、手动压缩与解压（Hadoop 命令）

1. 压缩本地文件

gzip data.txt

2. HDFS 上解压（需先下载）

hdfs dfs -get /input/data.txt.gz .
gunzip data.txt.gz

或：

hadoop fs -cat /input/data.txt.gz | gunzip

七、压缩与解压的自动机制

场景	是否自动解压
Hive 表	✅
HBase	✅
Spark 读取	✅
MapReduce	✅
HDFS 原始文件	❌（需程序支持）

八、压缩选型建议

Hive / Spark SQL 仓库表 → ORC / Parquet + Snappy
HBase 存储 → Snappy（性能优先）或 Zstd（压缩优先）
归档数据 → Gzip / Bzip2
中间临时数据 → Snappy（最快）

九、常见问题

Q1：压缩后查询变慢？

➡ 使用了不可切分压缩（如 Gzip）+ 大文件

Q2：HBase 压缩不生效？

➡ 忘了执行 major_compact

Q3：Snappy 不可用？

➡ 缺少 native 库，需安装 snappy-native

如果你愿意，我可以：

✅ 给你 Hive / HBase / Spark 的完整压缩配置示例
✅ 帮你 根据数据量选型压缩算法
✅ 分析 现有 Hadoop 集群是否适合开启压缩

只要告诉我你使用的是 Hive / HBase / Spark / MapReduce 哪一种即可。

向AI问一下细节