磁盘阵列及MSCS的维护

发布时间：2020-07-03 14:48:40 来源：网络阅读：1102 作者：guowang327 栏目：建站服务器

详细描述本人在使用IBM磁盘阵列及MSCS的日常维护方法，并对可能出现的问题说明了解决方法。

一、磁盘阵列的维护

基本知识

1、阵列的四种主要状态：

。Online（在线）：Cluster中有控制权的节点的阵列状态。

。Offline（脱机）：Cluster中无控制权的节点的阵列状态，或有控制权，但处于脱机状态。

。Critical（临界状态）：在Cluster中，处于此状态的阵列不允许进行切换，必须在原来有控制权的机器上对阵列进行恢复，即进行Rebuild或其它恢复操作。

。Blocked（阻塞状态）：只出现在RAID0级别中。在Cluster中，处于此状态的阵列不允许进行切换或读写操作，必须在原来有控制权的机器上对阵列进行恢复。

2、磁盘的两种主要状态：

。Online（在线）：硬盘灯为绿色或指示灯不亮（与阵列柜型号有关）。此时阵列的状态为Online。

。 Defunct（非在线、失效）：硬盘灯为红色。此时阵列的状态为Offline、Critical或Blocked。

3、每次切换后，磁盘阵列都会进行一次数据的同步，此时硬盘灯出现有规则的闪烁，持续时间大概为2小时左右（与阵列容量有关）。同时仍然可以进行其它操作，但是一定不能断电或进行热插拔操作，否则阵列信息将丢失。

4、硬盘的Firmware版本查看：

在ServeRaid Manager的物理磁盘组中，点击要查看硬盘，屏幕上将显示该硬盘的的Firmware版本号。

说明：版本要求为1.09（或S96E）以上。

5、阵列卡的Firmware及Bios版本查看：

在ServeRaid Manager中，点击要查看的控制卡，屏幕上将显示该阵列卡的Firmware 及Bios版本号。

说明：Firmware版本应为3.70以上、 Bios版本应为4.0以上。

现象观察

1、查看阵列柜的前面板的状态灯提示

一般阵列柜中硬盘有两个指示灯，一个为状态灯(红），一个为硬盘读写指示灯（绿）。

。若干磁盘的绿灯不规则闪烁表示为对该盘当前有读写操作（此时绿灯较亮），阵列为Online状态；

。全部磁盘的绿灯规则闪烁表示阵列作同步操作（此时绿灯较暗），阵列为Online状态；

。磁盘的绿灯全灭表示当前无操作，阵列处于Online状态；

。单个硬盘亮红灯表示此盘状态为DDD（不可用）或OffLine；

。某个硬盘绿灯及桔黄灯交替规则闪烁表示该盘正在Rebuild；

。两个以上硬盘亮红灯时表示阵列柜已坏，Cluster 必然当机。

2、通过ServeRaid Manager管理工具查看

在有控制权的节点启动ServeRaid Manager。

。控制器、逻辑盘处于OK状态；

。构成阵列的物理硬盘处于Online状态（如果存在Hot Spare盘，可看到本机的Hot Spare盘状态为Hot Spare，另一节点的Hot Spare盘状态为Ready）；

。如果存在Hot Spare 硬盘，则在Hot Spare 菜单中可以找到该硬盘；

。如果某物理硬盘状态为DDD，说明该盘已不可用，需要修复或替换；

。如果某块物理硬盘状态为Offline，表示该盘为脱机状态（未损坏）；

。在RAID 1、RAID 1E、RAID 5及RAID 5E 中如果某一硬盘状态为DDD或Offline，则阵列或逻辑盘状态为Critical，即临界状态；

。在RAID 0 中，如果某一硬盘状态为DDD或Offline，则阵列或逻辑盘状态为Blocked,即阻塞状态，此时对硬盘不能进行任何操作，等待恢复完后，手工将Blocked 状态设为UnBlocked状态；

说明：无控制权的节点阵列中的磁盘状态为Defunct（Hot Spare盘为正常）。

磁盘异常状态处理

要求主机对磁盘阵列拥有控制权。

1、单个磁盘DDD状态，此时禁止Cluster切换（可关闭备机）。

说明：DDD状态并不一定表示硬盘物理故障，根据该盘的使用情况，有如下处理方法：

。该盘作为Array磁盘时，并且该节点存在Hot Spare盘：当该盘失效时，Hot Spare 盘自动完成接管，阵列自动进入Rebuild状态，同时该盘状态转为Hot Spare。如果没有自动Rebuild，需要人工执行Rebuild 操作，完毕后，将该盘设置为Hot Spare状态。若人工Rebuild操作失败，可拔出此盘，隔一分钟后再插入磁盘柜中，重复上述操作；如果仍然失败，说明该盘可能存在物理故障。

。该盘作为Array磁盘时，节点无Hot Spare 盘；选中该盘，按鼠标右键，执行Rebuild操作，若操作失败，可拔出此盘，隔一分钟后再插入磁盘柜中，重复上述操作；如果仍然失败，说明该盘存在物理故障。

。该盘为Hot Spare 盘：选中该盘，按鼠标右键，执行Delete Hot Spare将此盘从Hot Spare状态删除，再将该盘重新设置为Hot Spare(也可使用Replace and Rebuild进行）。如果操作失败，可拔出此盘，隔一分种后再插入磁盘柜中，重复上述操作；如果仍然失败，说明该盘可能存在物理故障。

2、单个磁盘Offline状态

手工设置为Online；如果不成功，先关闭备机（无控制权），再重启主机，然后重新设置为Online；如果还不成功，将盘拔出磁盘柜，隔一分钟后重新插入柜中，再次关闭备机（无控制权），再分别重新启动主机和备机。

以下两种情况先关掉B机，防止系统切换

3、两个盘 Offline状态

先将其中一个Online，所另一个作Rebuild操作，完成后重新启动主机。

4、一个Offline,一个DDD

将Offline盘设置为 Online,对DDD盘作Rebuild操作，完成后重新启动主机。

5、硬盘状态为Defunct时，可按下列步骤进行恢复

。打开ServeRaid Manager。

。选中Defunct的硬盘，按右键。

。使用Replace And Rebuild对硬盘数据进行重建。

。按照屏幕提示，需要先将硬盘拔出，然后再插入。

磁盘阵列异常处理

1、当阵列处于Critical时，只需在原来有控制权的机器上对故障硬盘进行Rebuild即可。

2、当阵列处于Blocked时，作如下操作：

。为了保证对阵列的恢复，先将原来没有控制权的机器关闭。

。重新启动有控制权的机器，此时系统提示：按F4——修正错误；F5 ——接收当前配置。

。按F4修正当前的错误，将Blocked状态修正为Critical状态。

。系统自动对硬盘进行Rebuild。

硬盘Rebuild时的进度显示ServeRaid Manager中窗口底部的状态条中

二、MSCS的维护：

MSCS的维护与阵列的维护密切相关，如果阵列工作状态正常，则MSCS一般情况下也正常，但是如果Cluster 中的某些服务不能启动或损坏，MSCS可能发生工作异常。

以下是日常维护操作说明：

1、首先检查RAID的工作状态（通过IBM ServeRaid manager检查）；

2、使用Cluster Administators查看每个服务的工作情况，所有资源应为Online；

3、如果某服务或资源处于Offline状态时，先查明原因，然后人工设置为Online；

4、如果磁盘或磁盘阵列工作异常，可按照磁盘阵列的维护进行处理；

注意：此时阵列处于Critical状态，应防止、禁止切换操作（采取关闭备机的办法）。

5、如果异外断电（所有设备全部断电），启动时按下列顺序启动系统：

。先启动阵列柜；

。阵列柜加电后，启动断电前属于控制状态的节点；

。待完全启动后，再启动另外一个节点。

双机系统中存在主域控制服务器，应先启动主域控制服务器。

6、紧急情况下关机顺序如下：

。首先关闭处于备用状态的节点；

。再关闭处于控制状态的节点；

。最后关闭磁盘阵列。

原则上阵列柜不能掉电，特别是正在对进行阵列的读写操作时。

7、在特殊情况下，Cluster可能不能启动，一般情况下可能该节点对磁盘阵列无控制权，此时在命令行方式下执行ipshahto.exe文件，强行取得控制权。

此步骤建议在由技术人员指导下进行。

8、当硬盘正在Rebuild时，不允许切换；正在同步时，尽量不要切换；

向AI问一下细节

磁盘阵列及MSCS的维护

猜你喜欢

最新资讯

相关推荐

相关标签