温馨提示×

CentOS不稳定怎么办

小樊
44
2025-12-09 18:26:30
栏目: 智能运维

CentOS不稳定排查与加固清单

一、快速定位问题

  • 收集现场信息:查看系统日志与内核消息(/var/log/messages、/var/log/secure、dmesg)、资源使用(uptime、top/htop、free -m、df -h)、服务状态(systemctl status <服务名>)。这些能快速判断是资源瓶颈、配置错误还是硬件异常。
  • 判断故障类型:硬件(内存/硬盘/CPU/过热/断电)、软件(服务崩溃/依赖/配置错误)、网络(连通性/DNS/端口)。
  • 执行针对性诊断:网络(ping、traceroute、ss)、磁盘(fsck、smartctl)、内存(memtest86)。
  • 尝试恢复:重启服务、回滚最近变更、必要时重新安装受损软件包。
  • 记录与求助:完整记录现象与处置过程,便于复盘与后续排查。

二、常见根因与对应处置

  • 硬件故障或环境不稳:硬盘坏道、内存错误、过热、突然断电等会引发进程/系统异常。建议用 smartctl 检查磁盘健康、监控温度与风扇、配置 UPS 保障供电稳定。
  • 资源耗尽或配置不当:内存泄漏、CPU 100%、文件描述符不足、swap 策略不当等。建议优化应用与内核参数、限制服务资源、清理磁盘空间。
  • 软件缺陷或内核问题:驱动/应用缺陷、内核空指针等可能导致崩溃。建议更新补丁、必要时启用 kdump 捕获 vmcore 进行根因分析。
  • 文件系统与分区问题:空间不足、inode 耗尽、fstab 错误、文件系统损坏。建议检查 df/du、修复 fstab、按需执行 fsck、合理规划分区与 LVM
  • 安全事件或误操作:暴力破解、误删关键文件、错误变更。建议加固账户与 SSH、最小权限、变更留痕与回滚预案。

三、稳定性加固与优化

  • 系统与软件更新:使用 yum/dnf 定期更新补丁,修复漏洞与稳定性问题。
  • 服务与启动项精简:关闭不必要的服务与自启项,减少攻击面与资源占用。
  • 资源与内核参数:适度调优如文件描述符、TCP 队列、swappiness 等,示例:
    • 文件描述符:echo “* soft nofile 65535” >> /etc/security/limits.conf(需重新登录生效)
    • TCP 抗洪与连接:sysctl -w net.ipv4.tcp_syncookies=1;sysctl -w net.core.somaxconn=32768
  • 安全加固:启用 firewalld/iptables,开启 SELinux,限制 root 直登与 su 使用,强化口令策略与审计。
  • 监控与日志:部署 Zabbix/Prometheus 等监控并设置告警;集中与轮转日志(journalctl、rsyslog、logrotate、Auditd、Sysstat)。
  • 备份与高可用:定期备份(如 rsync/tar),关键业务引入 RAIDKeepalived/Heartbeat 与负载均衡,提升可用性与可恢复性。

四、无法启动或崩溃后的恢复

  • 进入救援/单用户:GRUB 菜单按 e 添加 rd.break 或选择救援模式;必要时用安装介质进入 Live 系统后执行 chroot /mnt/sysimage。
  • 修复文件系统与引导:以读写方式重挂载根分区(mount -o remount,rw /),执行 fsck;若 GRUB 损坏,使用 grub-install 与 update-grub 重建引导。
  • 重置 root 密码:在 rd.break 环境中 chroot /sysroot 后执行 passwd。
  • 分析崩溃原因:查看 /var/log/messages、/var/log/secure、dmesg;若怀疑内核问题,启用并分析 kdump 生成的 vmcore。

五、30分钟应急清单

  • 用 uptime、top/htop、free -m、df -h 确认是否资源瓶颈;ss -s 检查连接数。
  • 查日志:tail -n50 /var/log/messages /var/log/secure;dmesg -T | tail -50 定位内核/硬件报错。
  • 清理空间:删除无用日志与临时文件,确保根分区与关键分区有充足余量。
  • 快速恢复服务:systemctl restart <异常服务>;若有变更,优先回滚最近配置。
  • 临时加固:限制对外暴露端口(firewall-cmd)、禁止 root 直登、对关键进程设置内存/CPU 上限。
  • 建立持续机制:部署基础监控与告警、配置定时备份与异地存放、安排定期补丁与巡检窗口。

0