周一去客户那里巡检,用errpt一检查,考,NND,一大堆的ssa0 资源不可利用。凭偶的经验看,跟pdisk关系重大。做diag,报SRN:47500.
检查了service guide。让重做阵列或者更换硬盘。有问题的阵列由2块pdisk盘做的raid1。和另外一个由2块pdisk盘做的raid1做成datavg。NND,用migratepv迁移lv到好的raid1上的话,空间不够,只有回去,取盘。
2天后拿着ssa盘重回客户处,做vg备份,数据库备份。之后,什么lspv,lspv -l,看了看,做到对lv情况心中有数。然后做extendvg把自己带来的好盘扩到datavg里,migratepv把有问题的盘的lv迁移到好盘上。reducevg把坏盘删掉,进入smit ssaraid把有问题的阵列删掉,重新建raid1,把数据又迁移回来。把好盘用reducevg从datavg里删掉。至此,系统不再报错。
终于可以安心的回家了。唉,想起路上做汽车大巴脑袋就晕的厉害啊。;(
biml2002 回复于:2004-12-02 21:10:47
都是李XX惹的祸。
wozxz 回复于:2004-12-03 08:23:11
嘿嘿
楼主高人一个!!
banker 回复于:2004-12-03 08:54:40
这种实战的经验贴我们最支持,最喜欢!!!
johnsons 回复于:2004-12-03 09:37:24
我不大明白楼主为什么要这么麻烦迁移数据呢?你直接在raid菜单里面swap坏硬盘不就行了么?
biml2002 回复于:2004-12-03 09:49:46
引用:原帖由 "johnsons"]我不大明白楼主为什么要这么麻烦迁移数据呢?你直接在raid菜单里面swap坏硬盘不就行了么? 发表:
guide里面说的很清楚,有两种可能。
目前不清楚到底是否是硬盘故障,作为公司来讲,如果是软性问题,用硬件来解决,浪费了成本。事实证明是建的raid有问题。而不是硬件问题。为公司节省了一块硬盘哦,好几千块啊。
johnsons 回复于:2004-12-03 09:54:11
引用:原帖由 "biml2002" 发表:
guide里面说的很清楚,有两种可能。
目前不清楚到底是否是硬盘故障,作为公司来讲,如果是软性问题,用硬件来解决,浪费了成本。事实证明是建的raid有问题。而不是硬件问题。为公司节省了一块硬盘哦,好几千块啊..........
但是像你说的这种情况(raid建的有问题),从我维护的经验来看,确实还没有碰到过。概率应该是很小的。其实换回去的硬盘可以做检测啊,如果是好的,照样可以用的。
biml2002 回复于:2004-12-03 10:07:12
建的raid有问题,swap不一定能解决问题的,raid信息不会重建。
biml2002 回复于:2004-12-03 10:10:33
也 不能说概率小,只能说遇到的情况不多而已。
flighttop 回复于:2004-12-04 03:48:56
can you post the procedures how to replace a failed disk on AIX? Thanks!
biml2002 回复于:2004-12-04 09:33:40
guide里面介绍的很详细。你以去看看。有不清楚的地方可以发到论坛上来。
jamesbang2003 回复于:2004-12-05 18:54:52
呵呵,如果是硬盘坏了,不可以rebuild么,用一个软件工具可以看到,只是不知道你们的盘阵是不是sun的,要是的话,呵呵,我有办法。
feiaix 回复于:2004-12-05 19:15:03
NND是什么东西呀?
biml2002 回复于:2004-12-05 20:27:46
引用:原帖由 "jamesbang2003"]呵呵,如果是硬盘坏了,不可以rebuild么,用一个软件工具可以看到,只是不知道你们的盘阵是不是sun的,要是的话,呵呵,我有办法。 发表:
7133是IBM的磁盘柜,可不是sun的。这不是硬盘硬件故障,做link和校验硬盘都是good。
nhzjoke 回复于:2004-12-05 21:34:14
引用:原帖由 "feiaix"]NND是什么东西呀? 发表:
nainaide的缩写
强人 回复于:2004-12-06 09:40:04
不错。
feiaix 回复于:2004-12-06 15:13:41
还是不懂,NND说详细些好吗?
dugong 回复于:2004-12-07 09:18:45
引用:原帖由 "biml2002"]也 不能说概率小,只能说遇到的情况不多而已。 发表:
呵呵,俺就碰到过2次Raid不好的情况,SSA报错,但是每个硬盘单独作diag都是好的,没办法,只有重新作了一遍RAID。类似的情况俺在PC服务器上也碰到过几次,最后都是重新作了,郁闷呀。
刚开始,俺看楼主的帖子,也觉得有点小题大做,直接换不就得了,后面看看,恩,还是楼主想的多,想的深,想的远。赫赫......
saintzhou 回复于:2004-12-07 11:50:37
呵呵
lzolder 回复于:2004-12-18 21:35:58
最近刚装了一台d40,aix新手,学习ing
tumor 回复于:2005-01-14 15:08:38
同意这种观点。这个错误提示一般是某块pdisk被踢出来了。虽然你转了一圈加回去又正常了,但隐患依然存在。因为当初不会无缘无故的被踢出来。当然也许也能正常工作很长时间。如果真是误报或软错误而硬盘没毛病,我觉得用自己swap自己后就会正常,没必要再取盘吧。
引用:原帖由 "johnsons" 发表:
但是像你说的这种情况(raid建的有问题),从我维护的经验来看,确实还没有碰到过。概率应该是很小的。其实换回去的硬盘可以做检测啊,如果是好的,照样可以用的。
biml2002 回复于:2005-01-14 16:28:49
你想错了,pdisk没有被踢出来。具体什么情况,你可以看guide的说法。
start 回复于:2005-01-14 17:32:18
实话说我也不太理解楼主的做法,小数据量你可以这样测试,如果100多GB或者更多,你还这样?这个问题我也碰到过,但升级微码后就好了
biml2002 回复于:2005-01-14 17:41:26
你的情况和我的不一样。100GB的数量就不能迁移数据了吗?这个问题有几种可能性。需要一个一个的排除。软性的问题,难道你想用硬件解决吗?你同意,公司还不同意呢。
llslh 回复于:2005-09-01 22:25:38
请问各位,在7133-40D中建的Rdia5,如果在同一个Rdia里坏了两块盘,而Rdia组里只有一个热备,还有没有希望恢复Rdia而不必重建Rdia组呢?
bin__bin 回复于:2006-03-22 11:33:21
换回去的盘大多都不能用,基本上都会很快坏.
zhoujianbo 回复于:2006-03-22 13:19:56
这种现场实战的经验,我喜欢.
但我可不喜欢NND:em02:
|