一、配置管理与优化
hdfs-site.xml(如dfs.replication副本数、dfs.blocksize块大小)、core-site.xml(如fs.defaultFSNameNode地址)等核心配置,确保其与集群当前规模(如节点数量)、业务需求(如可靠性要求)一致。二、监控与故障排查
top(CPU/内存占用)、htop(交互式进程查看)、iostat(磁盘I/O)、vmstat(系统资源统计)等Linux命令监控节点资源;通过Hadoop命令行(hdfs dfsadmin -report查看集群状态、hdfs fsck /检查文件系统完整性)获取HDFS专项指标;部署第三方工具(如Prometheus+Grafana可视化监控、Ambari/Cloudera Manager集中管理),实时跟踪集群健康度。namenode.log)、DataNode(datanode.log)的日志文件,关注“Heartbeat lost”(心跳丢失)、“Block missing”(块缺失)、“GC overhead limit exceeded”(GC过载)等关键字,及时定位性能瓶颈或故障根源。dfs.namenode.heartbeat.recheck-interval(默认10分钟)未收到心跳,则判定DataNode失效;DataNode周期性发送数据块报告(默认6小时/次),帮助NameNode维护数据块位置和副本数量的准确性。三、数据完整性保障
hdfs fsck /命令全面检查文件系统,识别损坏的文件或数据块(标记为“Corrupt”),并通过-move(移动到/lost+found)或-delete(删除损坏块)选项处理,避免影响后续读取。四、性能优化
hadoop archive工具)或调整业务逻辑(如批量写入)减少小文件数量。五、高可用性与扩展性
hdfs dfsadmin -report查看新增节点状态)。六、安全管理
chmod设置文件/目录权限、chown设置所有者),限制用户对敏感数据的访问(如/user/admin目录仅允许管理员访问);开启HDFS ACLs(访问控制列表),细化权限管理(如允许某用户组读取某目录但不允许写入)。core-site.xml中设置hadoop.security.audit.logger),记录用户操作(如read、write、delete),便于后续追溯和审计(如排查数据泄露事件)。kinit命令获取票据)。七、备份与恢复
fsimage和edits日志),可使用hdfs dfsadmin -fetchImage命令将Secondary NameNode的元数据复制到本地,或通过脚本自动化备份(如每天凌晨备份到异地存储)。hdfs dfsadmin -allowSnapshot创建快照、hdfs dfs -restoreSnapshot恢复)备份重要目录(如/data);或通过distcp工具将数据复制到异地集群(如hadoop distcp hdfs://namenode1:8020/data hdfs://namenode2:8020/backup),确保数据可恢复。八、常规维护任务
chronyd)同步集群所有节点的时间(误差不超过1秒),避免因时间不同步导致的心跳检测失败(如DataNode时间比NameNode慢1分钟,可能被误判为失效)。ssh-keygen生成密钥对,将公钥复制到目标节点),便于Hadoop管理命令(如start-dfs.sh、stop-dfs.sh)的执行(无需手动输入密码)。jps检查进程是否运行)、存储使用率(hdfs dfsadmin -report查看剩余空间,避免超过80%)、网络连接(netstat检查端口是否正常,如NameNode的50070端口)、硬件状态(检查硬盘SMART信息、风扇转速、电源电压)。