HDFS的数据压缩策略主要涉及压缩算法选择、配置方式及适用场景,具体如下:
常用压缩算法
配置方式 在hdfs-site.xml中通过io.compression.codecs参数指定支持的压缩算法类(如org.apache.hadoop.io.compress.SnappyCodec),需重启集群生效。
hdfs-site.xml
io.compression.codecs
org.apache.hadoop.io.compress.SnappyCodec
选择建议