Linux日志中的硬件故障预警
一 核心日志源与定位路径
二 关键预警信号与日志关键词
| 组件 | 典型日志关键词/事件 | 含义与风险 | 建议动作 |
|---|---|---|---|
| 存储(HDD/SSD) | I/O error、ata errors、unrecoverable read error、disk I/O timeout、filesystem mounted read-only;SMART 项:Reallocated_Sector_Ct、Current_Pending_Sector、Wear_Leveling_Count | 介质退化或坏块,可能导致数据损坏或只读 | 立即备份;用 smartctl 长测;检查 RAID 一致性;准备更换盘 |
| 内存(含ECC) | Machine Check Exception(MCE)、corrected memory error、EDAC 报错 | CPU/内存总线或内存颗粒异常;ECC 纠正频率升高预示老化 | 导出与保存 MCE 日志;运行 memtest86+;检查内存条插槽/更换 |
| CPU/散热 | thermal、CPU over temperature、throttling | 过热触发降频或保护关机 | 检查散热片/风扇与机房风道;清洁灰尘;复核 BIOS 风扇曲线 |
| 电源/ACPI | ACPI BIOS Error、power supply、NMI | 供电不稳、主板电源管理异常或不可屏蔽中断 | 复核电源与电源线材;查看 iDRAC/IPMI 硬件事件;更新 BIOS/固件 |
| 文件系统 | EXT4-fs (recover) read-only、journal abort | 底层 I/O 错误引发只读或日志异常 | 先保障数据可用,再离线检查/修复;排查磁盘健康 |
| 网络 | eth0: link down/up、RX/TX errors | 链路不稳或网卡/PHY 异常 | 更换网线/光模块;检查交换机端口;更新驱动/固件 |
| 系统稳定性 | Kernel panic、Out of memory | 内核崩溃或内存耗尽触发 OOM Killer | 开启 kdump 捕获 vmcore;分析根因;优化内存与业务配置 |
| 以上关键词与处置方向可结合系统日志、内核日志与硬件监控工具交叉验证,以降低误报与漏报。 |
三 快速排查与定位命令
四 预警规则与自动化实践
五 处置优先级与注意事项