故障现象:
VNX/CLARiiON Dial Home有哪些常见错误代码? .
解决方案:
案例1:Storage Processor dials home‘7403’事件代码 这是一个比较常规的错误,但它本身无法说明问题的缘由。该事件表明存在SP故障,只有Unisphere中的告警或分析SPCOLLECT才是找出问题根源的关键。检查该问题需要两边SP的SPCOLLECT,且必须在问题发生之后采集(确保包含问题事件),随后上传日志到Service Center或powerlink。关于如何获取SPCOLLECT,请查看:如何使用SP Collect收集CLARiiON的SP日志以提高问题诊断的效率 案例2:Storage Processor dials home‘20c0’事件代码 该事件说明SP正忙,无法响应至少一个严重事件。它是一个超时事件,通常和SP重启有关。该事件本身无法说明问题的缘由。只有Unisphere中的告警或分析SPCOLLECTS才是找出问题根源的关键。检查此问题需要两边SP的SPCOLLECT,必须在问题发生之后采集(确保包含问题事件),随后上传日志到Service Center或powerlink。 案例3:Storage Processor dials home‘a23’事件代码 B 11/04/12 06:42:55 SP A a23 Peer SP Down. 3 0 0 这个错误说明Peer SP故障,原因可能是挂起、宕机、bugcheck(相当于Windows的蓝屏)。Peer SP的硬件依然存在,但处于下线状态,而且SPA和SPB之间的通信中断。该事件会导致系统错误LED亮起,并且如果主机故障转移软件配置正确的话,所有的活动LUN应该会被切换到另一个SP。 该事件表明Peer SP故障了,如果SP重启的原因已知(比如FLARE升级),那么可以忽略该事件。否则,需要收集SPCOLLECT以及Dump文件(如果发生了bugcheck reboot),由技术支持人员做出分析。 案例4:Storage Processor dials home‘944’事件代码 B ... SP A a23 Peer SP Down. 3 0 0 B ... SP B 944 Hard Peer Bus Error 2 0 0 该错误代表“Hard Peer Bus Error”,这说明两个SP之间的通讯已经中断,通常说明peer SP(不是报告这条错误的SP)已经重启或panic。如果SP重启的原因已知,那么可以忽略该事件。否则,需要收集SPCOLLECT以及Dump文件(如果发生了bugcheck reboot),由技术支持人员做出分析。检查该问题需要两边SP的SPCOLLECT(如果有dump文件也需要上传),必须在问题发生之后采集(确保包含问题事件),随后上传日志到Service Center或powerlink。 案例5:Storage Processor is faulted (事件代码 7127ca2...)" B Flaredrv 7127ca2a SPA is faulted. Fault Code: 0. FRU: CPU Module - Part Number: 303-113-400B should be replaced. A Flaredrv 7127ca2b SPB is faulted. Fault Code: 62. FRU: CPU Module - Part Number: 100-561-090, FRU: All DIMMs - Part Number: UNAVAILABLE should be replaced. A Flaredrv 7127ca2c SPB is faulted. The fault cannot be isolated. Fault Code: 41, 'Can't access disks'. A Flaredrv 7127ca2d SPB is in a hung state. The state code is: 45. Last state entered was: 'O/S running'. 这些错误说明peer SP发现一个故障,并且需要更换该SP的一个或多个部件,在目前的FLARE和VNX OE版本,有问题的SP记录在了错误中,但事件本身是由正常的SP记录的。例如第一个例子,SPA存在故障,SPB记录事件。这些错误在【peer SP的FLARE驱动已经启动,且SP依旧处于重启的过程中】的情况下会被报出。检查此问题需要两边SP的SPCOLLECT,必须在问题发生之后采集(确保包含问题事件),随后上传日志到Service Center或powerlink。 |