Linux中Hadoop日志管理可从查看、分析、清理及配置等方面入手,具体如下:
查看日志
tail -f实时查看(如tail -f /var/log/hadoop-hdfs/hadoop-hdfs-namenode-*.log),grep搜索关键词,awk提取字段。hadoop fs查看HDFS日志,yarn logs获取YARN任务日志。分析日志
sort、uniq统计错误频率,awk提取时间戳等字段。日志清理与归档
find命令删除过期日志(如保留7天):find /path/to/logs -type f -mtime +7 -exec rm {} \;。logrotate工具配置轮转策略(如按天轮转、保留7天),或使用Hadoop的hadoop-log-aggregation工具聚合清理。日志配置
log4j.properties文件(路径:$HADOOP_HOME/etc/hadoop/),调整hadoop.root.logger参数(如DEBUG,console)。安全与监控
chmod设置日志文件权限(如640),限制访问。gpg等工具加密存储。以上操作可根据集群规模和需求选择,大规模集群建议使用ELK等工具实现集中化管理。