HDFS文件系统在Linux怎样维护

HDFS文件系统在Linux环境中的维护指南

在Linux系统中维护HDFS前，需完成以下基础配置：

安装Java环境：HDFS依赖Java运行环境（推荐JDK 8及以上），通过java -version检查是否安装，未安装则使用sudo apt-get install openjdk-8-jdk（Ubuntu）或sudo yum install java-1.8.0-openjdk（CentOS）安装，并配置JAVA_HOME环境变量（添加至/etc/profile并执行source /etc/profile）。
下载与解压Hadoop：从Apache官网下载稳定版Hadoop（如3.3.0），解压至指定目录（如/usr/local/hadoop）。
配置环境变量：在/etc/profile中添加HADOOP_HOME（Hadoop安装目录）和PATH（包含$HADOOP_HOME/bin、$HADOOP_HOME/sbin），执行source /etc/profile使配置生效。
配置SSH免密登录：在NameNode节点生成密钥对（ssh-keygen -t rsa），将公钥复制到所有DataNode节点（ssh-copy-id datanode1、ssh-copy-id datanode2等），确保NameNode可通过SSH无密码访问DataNode。

修改Hadoop配置文件（位于$HADOOP_HOME/etc/hadoop/），定义HDFS运行参数：

core-site.xml：设置HDFS默认文件系统地址（fs.defaultFS，如hdfs://namenode:9000）和Hadoop临时目录（hadoop.tmp.dir，如/tmp/hadoop）。
hdfs-site.xml：配置NameNode数据目录（dfs.namenode.name.dir，如/data/namenode）、DataNode数据目录（dfs.datanode.data.dir，如/data/datanode）、副本因子（dfs.replication，生产环境建议3）、数据块大小（dfs.blocksize，如128MB或256MB，根据数据访问模式调整）。
mapred-site.xml：设置MapReduce框架为YARN（mapreduce.framework.name为yarn）。
yarn-site.xml：配置YARN资源管理器（yarn.resourcemanager.hostname为ResourceManager节点地址）和shuffle服务（yarn.nodemanager.aux-services为mapreduce_shuffle）。

格式化NameNode：首次启动前，需格式化NameNode以初始化元数据（执行hdfs namenode -format，注意：此操作会清除已有数据）。
启动HDFS集群：在NameNode节点执行start-dfs.sh启动NameNode和DataNode服务；如需启动YARN，可在ResourceManager节点执行start-yarn.sh。
验证集群状态：
- 使用jps命令查看Java进程（NameNode、DataNode、SecondaryNameNode等是否运行）。
- 使用hdfs dfsadmin -report查看集群详情（DataNode数量、磁盘使用情况、副本数等）。
- 访问NameNode Web界面（默认端口50070，如http://namenode:50070）查看集群状态。

使用hdfs dfs命令管理HDFS中的文件和目录：

监控磁盘使用：通过df -h查看Linux系统磁盘空间，通过hdfs dfs -df -h查看HDFS各目录使用情况（如/user/hive/warehouse）。
清理不必要文件：
- 删除旧文件：hdfs dfs -rm /path/to/old_file
- 清理回收站：hdfs dfs -expunge（清空回收站，回收站文件默认保留1天）
- 清理临时文件：如Hive临时目录/tmp/hive中的7天以上数据（hdfs dfs -rm -r /tmp/hive/*.tmp）。
数据均衡：当DataNode磁盘使用率差异较大时（如超过10%），执行start-balancer.sh启动均衡任务（默认阈值10%，可通过hdfs balancer -threshold 5调整）。

修改权限：使用hdfs dfs -chmod调整文件/目录权限（如hdfs dfs -chmod 755 /path/to/dir），使用hdfs dfs -chown修改所有者（如hdfs dfs -chown user:group /path/to/file）。
ACL精细控制：通过hdfs dfs -setfacl设置访问控制列表（如hdfs dfs -setfacl -m user:alice:rwx /path/to/file），通过hdfs dfs -getfacl查看ACL规则。

设置保留期限：通过HDFS生命周期策略（如hdfs lifecycle -createPolicy）定义数据保留时间（如30天），超过期限的数据自动删除或归档。
数据备份与恢复：
- 快照功能：创建目录只读快照（hdfs dfsadmin -allowSnapshot /path/to/dir，hdfs dfs -createSnapshot /path/to/dir snapshot_name），用于快速恢复数据。
- 跨集群复制：使用distcp命令（hadoop distcp hdfs://namenode1:9000/path hdfs://namenode2:9000/path）实现数据跨集群备份。
压缩数据：使用Snappy、ZSTD等压缩算法减少存储空间（如hdfs dfs -put localfile /hdfs/destination -D mapreduce.output.fileoutputformat.compress=true -D mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec）。

进程监控：使用jps命令定期检查HDFS进程（NameNode、DataNode、ResourceManager等）是否运行，若进程异常退出，需查看日志（/usr/local/hadoop/logs/目录下的namenode.log、datanode.log）定位原因。
NameNode高可用：配置NameNode HA（如QJM方案），避免单点故障。启用HA后，NameNode会自动切换，确保HDFS服务连续性。
常见问题处理：
- 磁盘故障：停机更换故障硬盘（确保同时停机个数小于副本数），更换后执行hdfs dfsck /检查文件系统完整性。
- NameNode内存溢出：调整JVM内存（如HADOOP_NAMENODE_OPTS="-Xmx4g"，根据数据量调整），使用G1GC垃圾回收器（-XX:+UseG1GC）减少Full GC时间。
- 小文件过多：合并小文件（使用hadoop archive命令或编写MapReduce程序），减少NameNode内存压力。

最新问答