一、系统基础维护
yum(CentOS)或apt-get(Ubuntu)更新操作系统及Hadoop相关软件包,及时安装安全补丁,避免因系统漏洞引发集群故障。smartctl工具监控硬盘健康状态,配置RAID阵列(如RAID 5/6)提升数据可靠性;采用双电源、多网卡冗余设计,降低硬件单点故障风险。/etc/sysctl.conf中的关键参数(如vm.swappiness降低内存交换频率、net.core.somaxconn增加TCP连接队列长度),优化系统性能以适应Hadoop高并发特性。二、Hadoop集群运维
jps命令定期检查NameNode、DataNode、ResourceManager、NodeManager等关键进程的运行状态;若进程异常终止,使用hadoop-daemon.sh(Hadoop 2.x)或start-yarn.sh(Hadoop 3.x)脚本重启,并通过tail -f查看对应日志(如/var/log/hadoop-hdfs/hadoop-hdfs-namenode.log)定位故障原因。hdfs dfsadmin -report查看HDFS集群状态(包括DataNode数量、数据块复制率、存储容量使用情况);通过yarn node -list确认YARN节点是否正常注册,结合Web UI(如NameNode的http://<namenode-host>:9870、ResourceManager的http://<resourcemanager-host>:8088)直观监控集群整体运行状况。hdfs balancer命令调整集群数据分布,确保各DataNode存储容量利用率差异不超过10%,避免数据倾斜导致的性能瓶颈。三、监控与告警
jps、hdfs dfsadmin、yarn application -list)进行基础监控;对于大型集群,采用Prometheus(采集时间序列数据)+ Grafana(可视化指标)搭建集中式监控平台,或使用Ambari(一站式集群管理)实现自动化监控与告警。四、日志管理
yarn-site.xml中设置yarn.log-aggregation-enable=true),将YARN应用日志自动上传至HDFS(存储路径为hdfs:///var/log/hadoop-yarn/apps);对于非YARN组件(如HDFS NameNode),使用Flume或Logstash采集日志并传输至集中式存储(如Elasticsearch)。ERROR、WARN),快速定位问题根源(如DataNode连接超报错)。logrotate工具设置日志轮换策略(如每天生成一个新日志文件,保留7天),避免日志文件过大占用磁盘空间;对于超过30天的历史日志,自动归档至低成本存储(如HDFS冷数据区)或删除。五、性能优化
hdfs-site.xml中fs.trash.interval=1440,单位为分钟),防止误删数据。yarn.scheduler.maximum-allocation-mb设置单个容器最大内存为8GB),优化容器资源分配策略;处理数据倾斜问题(如通过Combiner减少Map端输出数据量、使用Skew Join优化Join操作)。六、安全管理
hadoop),禁用root用户运行Hadoop服务;通过hdfs dfs -chmod设置HDFS文件权限(如750),确保只有授权用户可访问敏感数据目录(如/user/admin)。kdc.conf配置KDC服务器),实现Hadoop集群的强身份认证;对HDFS数据传输启用SSL/TLS加密(core-site.xml中hadoop.ssl.enabled=true),防止数据泄露。/var/log/secure(Linux系统日志)和Hadoop组件日志(如hadoop-hdfs-namenode.log),监控异常登录行为(如多次失败的SSH登录)和敏感操作(如删除HDFS根目录)。七、备份与恢复
hdfs distcp命令跨集群复制到异地备份集群(如hdfs distcp hdfs://namenode1:8020/data hdfs://namenode2:8020/backup),确保数据的高可用性。hdfs dfs -put将备份数据恢复至原集群)。