结论与原因
如何判断 CPU 是否存在硬件故障
dmesg | grep -i "mce\|cpu error",若出现 MCE: Hardware Error 等字样,说明处理器或内存控制器曾报告硬件错误,需进一步定位与处理。sensors | grep -i "core",关注各核心温度;一般使用中建议不超过约 85℃,接近或超过 90℃ 需检查散热与风道。watch -n 0.5 "grep 'cpu MHz' /proc/cpuinfo",观察是否频繁大幅降频。top/htop、mpstat -P ALL 1(需安装 sysstat),观察是否存在异常占用或个别核心长期异常。stress-ng --cpu N --timeout T 进行多核压力,配合温度/日志观察是否触发错误。dmesg | grep -i "memory error\|uncorrectable"。常用命令速查
lscpu 或 cat /proc/cpuinfodmesg | grep -i "mce\|cpu error"sensors | grep -i "core"top/htop、mpstat -P ALL 1stress-ng --cpu N --timeout Tmemtest86+(离线启动)