温馨提示×

CentOS文件系统故障排查步骤

小樊
35
2026-01-07 20:59:42
栏目: 智能运维

CentOS 文件系统故障排查与修复步骤

一 快速定位与初步检查

  • 查看内核与系统日志,优先关注文件系统只读、I/O 错误、XFS 日志异常等关键字:
    • 本次启动日志:journalctl -b
    • 近期日志:journalctl -xejournalctl -n 100
    • 传统日志:/var/log/messages/var/log/dmesg
  • 确认挂载与文件系统类型、空间与健康:
    • 挂载与类型:df -Tmount
    • 磁盘与分区信息:lsblkblkid
    • 磁盘健康:smartctl -a /dev/sdX
  • 典型现象与含义:
    • 出现 Read-only file system:文件系统检测到不一致,为保护数据自动切为只读,需卸载后检查修复。
    • 出现 XFS (recover):XFS 日志需要恢复,通常需卸载后执行修复。
    • 出现 blocked for more than 120 seconds:I/O 长时间阻塞,常见于磁盘/阵列/驱动问题,需优先排查硬件与链路。

二 常见故障场景与处置

  • 场景A 分区变为只读
    • 尝试重新挂载为读写:mount -o remount,rw /;若失败,转救援模式修复。
    • 备份关键数据(如可访问):例如 rsync -av /data/ root@192.168.1.100:/data/backup/
  • 场景B 无法启动或进入紧急模式
    • 使用安装介质进入 Rescue Mode,选择 Continue 挂载到 /mnt/sysimage,执行 chroot /mnt/sysimage
    • 检查并修正 /etc/fstab 错误条目(常见为设备名/UUID变更或挂载选项错误)。
    • 针对根分区执行文件系统检查与修复(见第三部分),修复后 exitreboot
  • 场景C XFS 文件系统异常
    • 原则:修复前必须卸载目标分区(业务停机/维护窗口)。
    • 常规修复:xfs_repair /dev/sdXxfs_repair /dev/mapper/-
    • 若日志损坏严重,可在充分评估数据风险后使用 xfs_repair -L(会清空日志,可能导致数据丢失,务必先备份)。
  • 场景D EXT 系列文件系统异常
    • 卸载后检查修复:fsck -t ext4 -y /dev/sdX(或 ext3/ext2,按实际类型)。
    • 若系统已只读且无法卸载根分区,进入救援模式后执行修复。

三 按文件系统类型的修复要点

文件系统 是否需卸载 常用检查/修复命令 关键注意事项
XFS xfs_repair /dev/sdX;必要时 xfs_repair -L 修复前必须卸载;-L 会清空日志,存在数据丢失风险
EXT3/EXT4 fsck -t ext4 -y /dev/sdX 运行于离线状态;自动回答“yes”可加速批量修复
LVM 逻辑卷 先定位:ls -l /dev/mapper;再修复:xfs_repair /dev/mapper/-fsck /dev/mapper/- 确认 VG/LV 名称与状态,避免误修其他卷
说明:根分区在运行中无法卸载时,使用安装介质进入 救援模式 后执行上述离线修复流程。

四 无法进入系统时的救援与引导修复

  • 救援模式流程
    • 安装介质引导 → 选择 TroubleshootingRescue a CentOS system → 选 Continuechroot /mnt/sysimage
    • 备份关键数据 → 检查/修复文件系统 → 修正 /etc/fstabexitreboot
  • 引导修复(GRUB)
    • chroot 环境中执行:
      • 重装引导:grub2-install /dev/sda
      • 生成配置:grub2-mkconfig -o /boot/grub2/grub.cfg
  • 紧急模式
    • 手动挂载:mount -a
    • 检查 /etc/fstab 配置错误并修正,再次尝试启动。

五 风险与最佳实践

  • 数据安全优先:任何修复前先做可离线备份;对 XFS 使用 -L 前务必确认风险与已有备份。
  • 离线修复原则:XFS/EXT 修复均需在卸载状态下进行,避免对业务盘直接操作。
  • 变更可追溯:修改 /etc/fstab 前记录原始内容,修复完成后逐项验证挂载结果。
  • 硬件先行:出现 I/O 超时/慢盘/阵列告警 时,先排查磁盘、RAID、HBA/驱动与存储链路,再处理文件系统。
  • 变更窗口与回退:在维护窗口执行,保留回退方案(快照/备份/克隆),修复后复核关键业务可用性。

0