温馨提示×

如何检查Ubuntu分区健康状况

小樊
35
2025-12-18 05:42:15
栏目: 智能运维

Ubuntu 分区健康状况检查指南

一 快速巡检清单

  • 查看分区容量与挂载状态:df -h,关注是否出现100% 使用、异常挂载选项或 I/O 报错。
  • 查看目录占用:du -sh /path,定位异常膨胀的目录。
  • 查看内核与系统日志中的磁盘/文件系统错误:dmesg | grep -i errorsudo journalctl -xe | grep -iE "filesystem|fsck|I/O"
  • 查看块设备与分区布局:lsblksudo fdisk -l,确认目标分区是否存在、类型是否正确。
    以上命令能快速发现空间耗尽、挂载异常与 I/O 错误等常见问题,为后续深入检查提供方向。

二 检查文件系统一致性与修复

  • 基本原则:对分区执行检查与修复前务必先卸载umount /dev/sdXN);对根分区 / 可在恢复模式或 LiveCD 环境中离线检查。
  • 图形界面(GNOME 磁盘):打开“磁盘”→选择磁盘→卸载目标分区→点击齿轮图标→“检查文件系统”→需要时“修复文件系统”。
  • 命令行(ext 系列):
    • 查看文件系统状态:sudo dumpe2fs -h /dev/sdXN,关注输出中的 Filesystem state(如:clean / clean with errors)。
    • 执行修复:sudo fsck -y /dev/sdXN(或按文件系统选择 fsck.ext4 等)。
  • 命令行(通用):sudo fsck -Nt <fstype> /dev/sdXN 可先显示将调用的检查器而不执行;需要时再实际修复。
  • 系统无法进入时:重启进 GRUB → Advanced options → Recovery mode → fsck,或在 LiveCD/USB 环境下对目标分区执行 fsck
    以上步骤可修复因异常关机、断电等导致的元数据不一致与“只读挂载”等问题。

三 检测磁盘坏扇区与介质错误

  • 只读扫描(推荐先用于排查):sudo badblocks -s -v /dev/sdXN(或整盘 sudo badblocks -s -v /dev/sdX),将结果输出到日志以便分析。
  • 读写验证/尝试修复(会改写数据,务必先备份卸载分区):sudo badblocks -s -v -w /dev/sdXN
  • 重要提示:
    • badblocks 仅能处理“逻辑坏道”;出现物理坏道应尽快更换磁盘,避免数据风险。
    • 对系统盘或正在使用的分区,需先停止相关进程并卸载后再检测。
      该流程可发现坏块并辅助隔离问题区域,但任何写模式检测都有数据丢失风险,请谨慎操作。

四 使用 SMART 评估磁盘健康与自测

  • 安装工具:sudo apt install smartmontools;查看整体健康:sudo smartctl -H /dev/sda;查看完整信息:sudo smartctl -a /dev/sda,关注关键项:
    • SMART overall-health self-assessment test result: PASSED/FAILED
    • Reallocated_Sector_Ct(重映射扇区计数)
    • Current_Pending_Sector(待映射扇区)
    • UDMA_CRC_Error_Count(接口/线缆错误)
    • Power_On_Hours(通电小时数)
  • 执行自检:短测 sudo smartctl -t short /dev/sda;长测 sudo smartctl -t long /dev/sda;查看结果 sudo smartctl -l selftest /dev/sda
  • 图形化工具:GNOME “磁盘”(内置 SMART 状态与自检)、GSmartControl、KDE “分区管理器”。
  • 环境限制:部分云服务器/虚拟机不支持直接访问物理 SMART 信息。
  • SSD 专项(NVMe):sudo apt install nvme-cli,查看健康:sudo nvme smart-log /dev/nvme0,关注 temperaturepercentage_usedmedia_errors 等指标。
    SMART 能提前预警硬件退化与介质错误,是判断磁盘是否需要更换的重要依据。

五 常见症状与处理建议

  • 分区变为只读:多为文件系统不一致或 I/O 错误。先尝试卸载并 fsck 修复;若反复出现,结合 dmesg/journalctlSMART 排查硬件问题。
  • 系统无法启动且提示文件系统错误:进入 Recovery mode → fsck 或在 LiveCD 中修复;修复前备份重要数据。
  • 空间耗尽或 inode 耗尽:df -hdf -i 定位;清理大文件/日志或扩展分区。
  • 检测到坏块或 SMART 告警:立即备份,尽快更换磁盘;对重要数据建立定期备份巡检机制。
    以上处置思路可快速隔离问题并采取合适的修复或更换策略,降低数据丢失风险。

0