Linux Kafka 故障排查实操手册
一 快速定位流程
二 常见故障与修复要点
| 症状 | 快速检查 | 修复建议 |
|---|---|---|
| 服务启动失败或闪退 | journalctl 报错、server.log 有 Fatal/Exception | 对照日志定位根因(配置、依赖、端口、磁盘、权限等),逐项修复后重启 |
| systemd 启动即退出或状态反复 | ExecStart 返回 0 但主进程很快退出 | 将单元 Type=forking,必要时设置 SuccessExitStatus=0 143;确认脚本正确等待子进程 |
| 端口被占用 | netstat/lsof 显示 9092 被占用 | 结束占用进程或修改 listeners 端口 |
| ZooKeeper 连接失败 | server.log 报无法连接 ZK | 确认 zookeeper.connect 正确、ZK 已启动、网络可达 |
| 配置或权限错误 | 启动日志提示路径不存在/不可写 | 创建 log.dirs 目录并赋权(chown/chmod),核对 broker.id 唯一 |
| Java 或磁盘问题 | 日志提示 Java 版本/内存/GC 异常、磁盘满 | 使用受支持的 Java 版本,调整堆与 GC;清理或扩容 log.dirs 所在磁盘 |
三 配置与连通性核查清单
四 systemd 单元与脚本的正确姿势
五 性能与稳定性优化要点