温馨提示×

Debian系统回收与故障排查

小樊
45
2025-12-14 10:48:27
栏目: 智能运维

Debian系统回收与故障排查实用手册

一 回收与空间清理

  • 基础清理
    • 查看占用:使用df -h定位满分区;用ncdu / -x交互式定位大目录(排除挂载点)。
    • APT缓存与无用包:依次执行sudo apt cleansudo apt autocleansudo apt autoremove --purge,清理缓存与不再需要的依赖及配置。
    • 临时与日志:清理临时文件sudo rm -rf /tmp/*;收缩系统日志sudo journalctl --vacuum-time=7d(可按需改为**–vacuum-size=50M**)。
  • 回收站与误删恢复
    • 图形会话的回收站位于用户目录**~/.local/share/Trash**;命令行可用trash-cli:安装sudo apt install trash-cli,常用命令有trash-puttrash-listtrash-restoretrash-rmtrash-empty
    • 已删除文件的应急恢复:优先卸载相关分区后尝试extundelete /dev/sdXN --restore-file /path;分区级恢复用testdisk;通用文件恢复可用photorec。操作前尽量避免写入,并先备份关键数据。
  • 旧内核与孤立包
    • 列出内核:dpkg --list | grep linux-image;保留当前运行内核(查看uname -r),删除旧版:sudo apt purge linux-image-<版本>
    • 清理残留与孤立包:清理状态为rc的残留sudo aptitude purge ‘~c’;查找孤立库sudo deborphan | xargs sudo apt-get -y remove --purge
  • 容器与镜像
    • 若使用Docker,执行docker system prune -a -fdocker volume prune -f等按需清理无用镜像、容器、卷与网络(会删除未使用数据,谨慎)。

二 故障排查流程

  • 快速定位
    • 资源与负载:uptimetop/htopvmstat 1iostat -x 1sar(若安装),观察CPU、内存、I/O瓶颈。
    • 内核与系统日志:dmesg -Tjournalctl -xe、查看**/var/log/syslog**,聚焦报错时间点与模块/服务名。
    • 服务状态:systemctl status <服务名>systemctl list-units --failed,必要时journalctl -u <服务名> -b
  • 硬件与网络
    • 硬件信息与健康:lshwdmidecode;磁盘健康smartctl -a /dev/sdX;内存可用memtest86+(离线测试)。
    • 网络连通与策略:pingip addr/ifconfigss -tulpen、检查iptables/nftables与云安全组/物理防火墙规则。
  • 软件与配置
    • 包一致性:apt updateapt -f installdpkg --configure -a修复中断安装;核对关键配置**/etc/fstab**、/etc/network/interfaces等。
  • 恢复与求助
    • 无法本地修复时,使用Live CD/USB备份数据后修复或重装;向社区提交问题时附上Debian版本、内核、硬件概况、错误日志与复现步骤

三 常见回收失败与故障场景

  • 磁盘满导致清理失败
    • 现象:apt、journalctl、tar等报“No space left on device”。
    • 处置:用ncdu快速定位大文件/目录;先清理**/var/cache/apt/archives**、/tmpjournal;必要时扩容分区或挂载新盘转移数据。
  • 误删文件
    • 处置:立即停止写入相关分区;优先用extundelete/testdisk/photorec尝试恢复;无法恢复时从备份还原。
  • 旧内核未清理导致/boot不足
    • 现象:更新失败或无法安装新内核。
    • 处置:保留uname -r对应版本,清理其他linux-imagelinux-headers旧包,更新grub并重启。
  • LVM空间回收或扩容
    • 回收:删除不再使用的lvremove /dev/mapper/-;扩展:先扩LV再扩文件系统(resize2fs用于ext2/3/4,xfs_growfs用于XFS)。
  • systemd服务异常
    • 现象:服务反复重启或启动失败。
    • 处置:systemctl status/restart/enable <服务>journalctl -u <服务> -b查看单元日志;检查配置与依赖、端口占用与权限。

四 安全操作要点

  • 重要数据先备份(如rsync -aAX / /backuptar归档),再进行清理/扩容/删除操作。
  • 谨慎使用rm -rf与通配符;删除前用ls/du确认目标;对生产环境建议先在测试环境验证。
  • 清理或变更分区/LVM/引导前,准备Live CD/USB与回滚方案;变更**/etc/fstab**务必保留可用条目与注释说明。
  • 执行aptdpkgsystemctl等系统级命令时,优先使用sudo并逐项确认,避免连锁故障。

0