ChinaUnix首页 > 精华文章 > AIX > 正文

[原创] (原创) 7133-T40阵列故障解决实例


http://www.chinaunix.net 作者:biml2002  发表于:2006-03-22 13:19:56
发表评论】 【查看原文】 【AIX讨论区】【关闭

周一去客户那里巡检,用errpt一检查,考,NND,一大堆的ssa0 资源不可利用。凭偶的经验看,跟pdisk关系重大。做diag,报SRN:47500.
检查了service guide。让重做阵列或者更换硬盘。有问题的阵列由2块pdisk盘做的raid1。和另外一个由2块pdisk盘做的raid1做成datavg。NND,用migratepv迁移lv到好的raid1上的话,空间不够,只有回去,取盘。

2天后拿着ssa盘重回客户处,做vg备份,数据库备份。之后,什么lspv,lspv -l,看了看,做到对lv情况心中有数。然后做extendvg把自己带来的好盘扩到datavg里,migratepv把有问题的盘的lv迁移到好盘上。reducevg把坏盘删掉,进入smit ssaraid把有问题的阵列删掉,重新建raid1,把数据又迁移回来。把好盘用reducevg从datavg里删掉。至此,系统不再报错。

终于可以安心的回家了。唉,想起路上做汽车大巴脑袋就晕的厉害啊。;(



 biml2002 回复于:2004-12-02 21:10:47

都是李XX惹的祸。


 wozxz 回复于:2004-12-03 08:23:11

嘿嘿
楼主高人一个!!


 banker 回复于:2004-12-03 08:54:40

这种实战的经验贴我们最支持,最喜欢!!!


 johnsons 回复于:2004-12-03 09:37:24

我不大明白楼主为什么要这么麻烦迁移数据呢?你直接在raid菜单里面swap坏硬盘不就行了么?


 biml2002 回复于:2004-12-03 09:49:46

引用:原帖由 "johnsons"]我不大明白楼主为什么要这么麻烦迁移数据呢?你直接在raid菜单里面swap坏硬盘不就行了么?
 发表:



guide里面说的很清楚,有两种可能。
目前不清楚到底是否是硬盘故障,作为公司来讲,如果是软性问题,用硬件来解决,浪费了成本。事实证明是建的raid有问题。而不是硬件问题。为公司节省了一块硬盘哦,好几千块啊。


 johnsons 回复于:2004-12-03 09:54:11

引用:原帖由 "biml2002" 发表:


guide里面说的很清楚,有两种可能。
目前不清楚到底是否是硬盘故障,作为公司来讲,如果是软性问题,用硬件来解决,浪费了成本。事实证明是建的raid有问题。而不是硬件问题。为公司节省了一块硬盘哦,好几千块啊..........


但是像你说的这种情况(raid建的有问题),从我维护的经验来看,确实还没有碰到过。概率应该是很小的。其实换回去的硬盘可以做检测啊,如果是好的,照样可以用的。


 biml2002 回复于:2004-12-03 10:07:12

建的raid有问题,swap不一定能解决问题的,raid信息不会重建。


 biml2002 回复于:2004-12-03 10:10:33

也 不能说概率小,只能说遇到的情况不多而已。


 flighttop 回复于:2004-12-04 03:48:56

can you post the procedures how to replace a failed disk on AIX? Thanks!


 biml2002 回复于:2004-12-04 09:33:40

guide里面介绍的很详细。你以去看看。有不清楚的地方可以发到论坛上来。


 jamesbang2003 回复于:2004-12-05 18:54:52

呵呵,如果是硬盘坏了,不可以rebuild么,用一个软件工具可以看到,只是不知道你们的盘阵是不是sun的,要是的话,呵呵,我有办法。


 feiaix 回复于:2004-12-05 19:15:03

NND是什么东西呀?


 biml2002 回复于:2004-12-05 20:27:46

引用:原帖由 "jamesbang2003"]呵呵,如果是硬盘坏了,不可以rebuild么,用一个软件工具可以看到,只是不知道你们的盘阵是不是sun的,要是的话,呵呵,我有办法。
 发表:



7133是IBM的磁盘柜,可不是sun的。这不是硬盘硬件故障,做link和校验硬盘都是good。


 nhzjoke 回复于:2004-12-05 21:34:14

引用:原帖由 "feiaix"]NND是什么东西呀?
 发表:




nainaide的缩写


 强人 回复于:2004-12-06 09:40:04

不错。


 feiaix 回复于:2004-12-06 15:13:41

还是不懂,NND说详细些好吗?


 dugong 回复于:2004-12-07 09:18:45

引用:原帖由 "biml2002"]也 不能说概率小,只能说遇到的情况不多而已。
 发表:


呵呵,俺就碰到过2次Raid不好的情况,SSA报错,但是每个硬盘单独作diag都是好的,没办法,只有重新作了一遍RAID。类似的情况俺在PC服务器上也碰到过几次,最后都是重新作了,郁闷呀。
刚开始,俺看楼主的帖子,也觉得有点小题大做,直接换不就得了,后面看看,恩,还是楼主想的多,想的深,想的远。赫赫......


 saintzhou 回复于:2004-12-07 11:50:37

呵呵


 lzolder 回复于:2004-12-18 21:35:58

最近刚装了一台d40,aix新手,学习ing


 tumor 回复于:2005-01-14 15:08:38

同意这种观点。这个错误提示一般是某块pdisk被踢出来了。虽然你转了一圈加回去又正常了,但隐患依然存在。因为当初不会无缘无故的被踢出来。当然也许也能正常工作很长时间。如果真是误报或软错误而硬盘没毛病,我觉得用自己swap自己后就会正常,没必要再取盘吧。


引用:原帖由 "johnsons" 发表:

但是像你说的这种情况(raid建的有问题),从我维护的经验来看,确实还没有碰到过。概率应该是很小的。其实换回去的硬盘可以做检测啊,如果是好的,照样可以用的。




 biml2002 回复于:2005-01-14 16:28:49

你想错了,pdisk没有被踢出来。具体什么情况,你可以看guide的说法。


 start 回复于:2005-01-14 17:32:18

实话说我也不太理解楼主的做法,小数据量你可以这样测试,如果100多GB或者更多,你还这样?这个问题我也碰到过,但升级微码后就好了


 biml2002 回复于:2005-01-14 17:41:26

你的情况和我的不一样。100GB的数量就不能迁移数据了吗?这个问题有几种可能性。需要一个一个的排除。软性的问题,难道你想用硬件解决吗?你同意,公司还不同意呢。


 llslh 回复于:2005-09-01 22:25:38

请问各位,在7133-40D中建的Rdia5,如果在同一个Rdia里坏了两块盘,而Rdia组里只有一个热备,还有没有希望恢复Rdia而不必重建Rdia组呢?


 bin__bin 回复于:2006-03-22 11:33:21

换回去的盘大多都不能用,基本上都会很快坏.


 zhoujianbo 回复于:2006-03-22 13:19:56

这种现场实战的经验,我喜欢.
但我可不喜欢NND:em02:




原文链接:http://bbs.chinaunix.net/viewthread.php?tid=457936
转载请注明作者名及原文出处