Ubuntu Hadoop 日志如何查看与分析

Ubuntu环境下Hadoop日志的查看与分析指南

一、Hadoop日志文件的位置

Hadoop的日志文件按组件分类存储，Ubuntu系统下默认路径如下（需根据实际安装路径调整）：

HDFS组件：/var/log/hadoop-hdfs/（包含NameNode、DataNode等日志）
YARN组件：/var/log/hadoop-yarn/（包含ResourceManager、NodeManager等日志）
MapReduce组件：/var/log/hadoop-mapreduce/（包含MapReduce任务日志）
守护进程日志：$HADOOP_HOME/logs/（如hadoop-<username>-namenode-<hostname>.log，<username>为运行用户，<hostname>为主机名）

二、常用日志查看命令

1. 基础查看命令

cat：查看完整日志文件内容（适用于小文件）。
示例：cat $HADOOP_HOME/logs/hadoop-ubuntu-namenode-localhost.log
tail：查看文件末尾内容（默认10行），-f参数可实时跟踪日志更新（适用于监控实时日志）。
示例：tail -n 20 $HADOOP_HOME/logs/hadoop-ubuntu-datanode-localhost.log（查看最后20行）；tail -f /var/log/hadoop-hdfs/hadoop-hdfs-datanode-*.log（实时跟踪所有DataNode日志）。
head：查看文件开头内容（默认10行）。
示例：head -n 15 /var/log/hadoop-yarn/yarn-ubuntu-resourcemanager-localhost.log。

2. 文本过滤与搜索

grep：搜索包含特定关键词的行（支持正则表达式），常用于定位错误或特定事件。
示例：grep "ERROR" /var/log/hadoop-hdfs/*.log（查找所有HDFS日志中的ERROR信息）；grep -i "timeout" $HADOOP_HOME/logs/hadoop-ubuntu-namenode-*.log（忽略大小写搜索“timeout”）。
sed：按行号或模式提取文本内容（适用于提取特定段落）。
示例：sed -n '100,200p' /var/log/hadoop-yarn/yarn-ubuntu-nodemanager-*.log（打印第100至200行）；sed -n '/ERROR/,/WARN/p' $HADOOP_HOME/logs/hadoop-ubuntu-datanode-*.log（提取ERROR到WARN之间的内容）。
awk：提取指定字段（如时间戳、错误信息），并进行统计。
示例：awk '/ERROR/ {print $1, $2, $3}' /var/log/hadoop-hdfs/*.log（提取ERROR行的前三个字段，通常为时间戳）；awk '{print $1}' /var/log/hadoop-yarn/*.log | sort | uniq -c（统计每个日期的日志条目数）。

三、Hadoop内置工具查看日志

1. HDFS命令查看HDFS日志

使用hadoop fs命令查看HDFS中存储的日志文件（如任务日志、NameNode日志）。
示例：hadoop fs -cat /var/log/hadoop-hdfs/hadoop-hdfs-namenode-localhost.log（查看HDFS中的NameNode日志）。

2. YARN命令查看任务日志

通过yarn logs命令查看MapReduce任务的日志（需指定应用ID，可通过yarn application -list获取）。
示例：yarn logs -applicationId application_1234567890000_0001 > task_logs.txt（将指定任务日志保存到本地文件）；yarn logs -applicationId <app_id> | grep "ERROR"（直接过滤任务日志中的ERROR信息）。

四、日志分析实战技巧

1. 快速定位错误信息

结合grep、wc和tail命令，统计错误次数并查看上下文。
示例：grep -c "ERROR" /var/log/hadoop-hdfs/*.log（统计HDFS日志中ERROR的总数）；grep "ERROR" /var/log/hadoop-hdfs/*.log | tail -50（查看最后50条ERROR信息）。

2. 统计IP请求量（针对Web接口日志）

使用awk、sort和uniq命令，统计访问日志中IP地址的出现次数（按频率排序）。
示例：awk '{print $1}' /var/log/hadoop-yarn/proxy/*.log | sort | uniq -c | sort -nr（提取IP地址并统计访问次数，按降序排列）。

3. 查看任务执行上下文

通过yarn logs命令查看失败任务的详细日志（如MapReduce任务的stderr）。
示例：yarn logs -applicationId <app_id> | grep -A 20 -B 20 "FAILED"（查看任务失败前后的20行日志，定位失败原因）。

五、进阶：使用ELK Stack集中管理日志

对于大规模Hadoop集群，建议使用**ELK Stack（Elasticsearch+Logstash+Kibana）**进行日志的集中存储、搜索和可视化：

Logstash：收集Hadoop各节点的日志文件（通过Filebeat采集），并解析为结构化数据（如提取时间戳、日志级别、守护进程名称）。
Elasticsearch：存储Logstash解析后的日志数据，支持快速全文搜索和复杂查询。
Kibana：通过可视化 dashboard 展示日志趋势（如ERROR数量随时间变化）、Top N错误类型、节点状态分布等，帮助快速识别集群问题。

六、注意事项

日志轮转：配置logrotate工具自动压缩和删除旧日志（避免日志文件过大占用磁盘空间）。示例配置：
```
sudo nano /etc/logrotate.d/hadoop
```
添加以下内容（每天轮转、保留7天、压缩旧日志）：
```
/var/log/hadoop-hdfs/*.log {
    daily
    missingok
    rotate 7
    compress
    notifempty
    create 640 root adm
}
```。  
```
日志级别调整：若需更详细的调试信息，可修改log4j.properties文件（位于$HADOOP_HOME/etc/hadoop/），将根日志级别设置为DEBUG（如log4j.rootLogger=DEBUG, console），但生产环境建议保持INFO级别以避免日志过多。