LoveUnix » AIX -IBM UNIX » Hacmp5.3在做shutdown的时候发生接管
让LU留住您的每

一天 让LU博客留住您的每一天
2006-12-14 17:15 stevenc_lee
Hacmp5.3在做shutdown的时候发生接管

抱着一颗感恩的心和负责任的态度,在回到酒店的第一时间就上坛子来汇报一下这周以来研究HACMP5.3在AIX5300-05做shutdown命令时候的发生接管的问题结果。

  研究了几天,看了坛子上很多人都说系统在做shutdown的时候不会发生资源接管,OK
  
  首先操作系统是AIX5300-05, HACMP是5303,在2个主机上都起来hacmp,但是在做shutdown的时候,资源发生了迁移(takeover),的确很不解,于是仔细查看了redbook,发现在hacmp做shutdown的时候,会自动调用[color=blue]/usr/es/sbin/cluster/etc/rc.shutdown, [/color][color=black]于是我便直接查阅了该脚本,内容如下(节选):[/color]
   ###############################################################################
#   We're doing a shutdown because of an EPOW condition
###############################################################################
if [[ $EPOW_SHUTDOWN == true ]] ; then
    ###########################################################################
[color=red]    #   We attempt to do a 'graceful with takeover' shutdown, so that the
    #   resource groups get taken over when this node fails.  Note that this
    #   is in no sense guaranteed to complete before the node dies, but at
    #   least the other cluster nodes should perform takeover.[/color]
    ###########################################################################
    [color=blue]clstop -gr -y -s -N -S[/color]
###############################################################################
[color=red]#   A "fast shutdown" ("-F") was specified.  We turn this into a forced down
#   operation, mostly to preserve compatabilty[/color]
###############################################################################
elif [[ $fast == true ]] ; then
    [color=blue]clstop -f -y -s -N -S[/color]
###############################################################################
[color=red]#   A "reboot" ("-r") was specified.  Do a graceful down, without takeover,
#   leaving the application cleanly down and HACMP out of the way on reboot.[/color]
###############################################################################
elif [[ $reboot == true ]] ; then
    [color=blue]clstop -g -y -s -N -S[/color]
###############################################################################
#   Every other shutdown is mapped to a graceful with takeover
###############################################################################
else
    clstop -gr -y -s -N -S
fi
###############################################################################
#   this is shutdown so remove the cluster shared memory
###############################################################################
sleep 4
rm -f /usr/es/sbin/cluster/etc/ClSm 2>/dev/null

***************************************************************************8

很明显,如果我英语水平不是太烂的话,那么该脚本明确指出,“[color=red][b]如果只用shutdown,而不接任何参数,集群必然发生资源接管[/b][/color]”!!!而后面接F、r、Fr的话,集群是不会发生资源接管的,值得注意的是,如果您HACMP的版本是5300的话,该rc.shutdown是没有这些说明的,我的Hacmp是5303。

  但是我测试过#shutdown -Fr   # shutdown -F  #shutdown -r,资源依然会发生接管,这又是怎么回事呢?

  我们仔细观察了在shutdown -Fr B主机的时候主机A上面的/etc/hacmp.out,发现无论我们后面是否加F或者r,系统都会调用[color=#0000ff]clstop -gr -y -s -N -S[/color][color=black]命令,难道这是bug吗? 要不,就是rc.shutdown在忽悠我们,于是打800电话,开始他们也不相信shutdown会发生资源接管,但是当他们打开rc.shudown的时候,便知道有的东西你不知道并不代表它不存在......[/color]

  下午3点左右,800打来了电话,确认了这个现象是AIX5300-05的一个新BUG,IBM官方的补丁号是[b][font=Arial]IY87622,[/font]但是目前还没有开放下载,下面是800给我发的mail确认内容:[/b]
[b][size=2]XXX先生您好:[/size]

[size=2]      您所说的问题已经查明,实际上是rc.shutdown脚本的问题,导致了shutdown -F,shutdown -Fr都执行了shutdown命令。这样的结果就是会导致ha的切换。目前ibm针对这个问题已经有了补丁:[/size] [table][tr][td][align=center][font=Arial][size=2][b]IY87622[/b][/size][/font][/align][tr][td][align=center][font=Arial][size=3]SHUTDOWN DOES NOT PASS FLAGS TO HACMP RC.SHUTDOWN[/size][/font]

[/align][/td][/tr][/table]
[size=2]       这个补丁目前网站还没有下载,请在过些时候下载安装即可修正问题。[/size][/b]
[b]   [/b]


[b]  [/b]是的,这个礼拜以来,我们碰到了AIX5300-05的一个新的BUG,虽然是新的BUG,但是我们需要明确的一点就是:在5300-05AIX系统里面,我们直接shutdown的时候,Hacmp的资源会发生接管取代的,真的,[b][color=blue]不知道的事情,[/color][color=blue]不代表它不存在;了解的东西,不代表它不在改变[/color][/b]
[b][color=#0000ff][/color][/b]
[color=#0000ff][b]  [/b][/color][color=black]这个礼拜真的学到了很多东西,谢谢所有关注我帖子的朋友们,谢谢你们的回帖,无论是鼓励还是训斥,对于我来说都是宝贵的财富,谢谢!!!!!!![/color]

   同样希望我的这次经历,能给渴望学习的朋友们一点帮助,呵呵,很高兴能入这行,太TM有意思了!!!

2006-12-14 20:22 kingdanis
:D 鼓励一下!!!

2006-12-14 20:36 jiangxh
不错,抓虫!!

2006-12-14 20:47 onetwothree
我对HACMP真的是越来越怀疑了,不管实施者的水平如何,别的cluster软件就没有这么多的问题。网卡丢包、胡乱切换、配置不同步、突然当机...不一而足。HACMP补丁也是更新不断,IBM有人居然拿不断推出补丁作为该软件的一个优点,曰:“一年也没几个补丁的群集软件你们也敢用啊!”我听了立即晕倒。

2006-12-14 22:49 老农
这样的帖子,不鼓励绝对是不对的:victory:

2006-12-14 22:51 starter
拔掉主机的两根网线,备机也接管,这个算吗?  :$


shutdown确实接管了。

[[i] 本帖最后由 starter 于 2006-12-24 23:16 编辑 [/i]]

2006-12-14 22:53 老农
[quote]原帖由 [i]starter[/i] 于 2006-12-14 22:51 发表
拔掉主机的两根网线,备机也接管,这个算吗? [/quote]
正常的是这样的啊

2006-12-14 22:53 charly
我也是,等下贴上来大家看看。
只要一手动takeover HACMP,那么A机就直接挂了。没有任何反应,只有强制按白色小按钮!

2006-12-15 04:46 老农
[quote]原帖由 [i]onetwothree[/i] 于 2006-12-14 20:47 发表
我对HACMP真的是越来越怀疑了,不管实施者的水平如何,别的cluster软件就没有这么多的问题。网卡丢包、胡乱切换、配置不同步、突然当机...不一而足。HACMP补丁也是更新不断,IBM有人居然拿不断推出补丁作为该软 ... [/quote]
实际上因为实施者水平的问题导致的问题占的比例非常大。别的HA,没见有敢这么不懂就去干的,而IBM的HACMP,经常遇到才认识AIX的就上手去干的。
HACMP的版本更新是太快了点,但稳定版本毕竟还是有的啊。

2006-12-15 05:50 projects
[quote]原帖由 [i]老农[/i] 于 2006-12-15 04:46 发表

实际上因为实施者水平的问题导致的问题占的比例非常大。别的HA,没见有敢这么不懂就去干的,而IBM的HACMP,经常遇到才认识AIX的就上手去干的。
HACMP的版本更新是太快了点,但稳定版本毕竟还是有的啊。 [/quote]

这个巨同意。

2006-12-15 09:45 orian
亲人啊!:'( :'( :'( 激动得我痛哭流涕!:lol :lol :lol

2006-12-15 10:01 crazyshow
回复 #9 charly 的帖子

A机挂了是什么意思?
hold住了?还是halt了?或者是dump去了?你大概看它Hold了多久就去按开关了?

A机的主机名是不是按字母顺序排在B主机机名之后?

俺以前遇到过M85和p670做HA,670->M85没问题,M85->670就不行,具体是M85立刻死机。

最后18M的老Y给国外打电话,讲了很久的鸟语,还敲了一些看不懂的命令,最后也没结论。

2006-12-15 10:57 fishsample2
[quote]原帖由 [i]老农[/i] 于 2006-12-15 04:46 发表

实际上因为实施者水平的问题导致的问题占的比例非常大。别的HA,没见有敢这么不懂就去干的,而IBM的HACMP,经常遇到才认识AIX的就上手去干的。
HACMP的版本更新是太快了点,但稳定版本毕竟还是有的啊。 [/quote]

农哥,现在HA5。2和5。3稳定的版本是哪些?

2006-12-15 11:02 闲云
[quote]原帖由 [i]orian[/i] 于 2006-12-15 09:45 发表
亲人啊!:'( :'( :'( 激动得我痛哭流涕!:lol :lol :lol [/quote]

你激动啥
hp的mcsg,老人家您也见识过,不是也很简单吗

2006-12-15 11:28 qiaolan
回复 #4 onetwothree 的帖子

其实现在的HACMP 5比起以前的HACMP4......在易配置性和稳定性上,已经好了很多很多了,并且切换速度也提高了不少。

2006-12-15 12:25 onetwothree
[quote]原帖由 [i]qiaolan[/i] 于 2006-12-15 11:28 发表
其实现在的HACMP 5比起以前的HACMP4......在易配置性和稳定性上,已经好了很多很多了,并且切换速度也提高了不少。 [/quote]
承认别名IP、配置方式等有巨大改进,事实上还是HACMP问题多一些。MC/SG即使是不懂的人照着改配置文件,配好以后就比较稳定。个人感觉以下几点需要改进:
1、串口点对点协议本身不怎么稳定,不适合作为首选的心跳线,心跳线引起的接收溢出等问题很多。
2、功能太杂,导致稳定性下降。应该去掉某些不常用的功能,或分成几个版本。
3、配置麻烦,虽然HACMP5.X有巨大改进,对于新手还是需要熟悉一堆概念。
4、引起节点down掉具体不知道什么原因,这个应该消除。如果是脑分裂了,也应该给出错误信息。
5、配置信息放在ODM库中经常碰到节点之间配置不同步,其结果不是高可用,而且一个节点都起不来。
6、rsct有时候占资源较大。

2006-12-15 12:38 orian
1、串口点对点协议本身不怎么稳定,不适合作为首选的心跳线,心跳线引起的接收溢出等问题很多。

如果用ibm标准线,标准卡,9600速率,只要不是接地不好,配置错误,补丁没打(:D )还真没见过什么问题。

2、功能太杂,导致稳定性下降。应该去掉某些不常用的功能,或分成几个版本。

这是ibm的习惯,其实这也不是ibm自己做的,否则这么多年也应当稳定了。

3、配置麻烦,虽然HACMP5.X有巨大改进,对于新手还是需要熟悉一堆概念。

都那么简单化,ibm怎么赚服务的钱?我们这些人靠什么当老鸟,博得小兄弟们的敬仰啊?给老家伙留条活路。。。。:L :L  另外,这些概念也没什么,我总说,hacmp就4件事情,ip,lvm,脚本,几个设备定义,其实真的没什么,当然,这是几晚上不睡觉的结果,但不过几晚上不睡觉,换5年安心,值吧?你学了概念,不用于ha还可以用在别的地方啊,又不是什么ha单独的技术!


4、引起节点down掉具体不知道什么原因,这个应该消除。如果是脑分裂了,也应该给出错误信息。

你想一想,如果你自己是个“傻瓜”(sorry,这个比喻可能不恰当,改成假如我自己是个傻瓜),我能知道自己傻么?同样,如果脑裂了,我怎么知道对方是死了还是中间线路断了?

5、配置信息放在ODM库中经常碰到节点之间配置不同步,其结果不是高可用,而且一个节点都起不来。

那跟hp一样做一堆的配置文件?而且为什么配置信息不同步?总是由于有人改啊,不动它就会变?那个真实高人!高配置!如果节点起不来,懂的搞一下,不懂ha的别用ha啊,手工也可以起啊,关键在于启动的人不但ha不懂,系统也不懂!

6、rsct有时候占资源较大。
这个十足是毛病,但我还没见过了很大的,往往是一些额外监控软件,补丁也要打一打的。另外rsct在很多地方都被用到,它只是通信技术,可能是那些程序和rsct配合不好,rsct太新了。

2006-12-15 12:54 onetwothree
关于第5点,我见过几次没改过配置就不同步的,有时候它没报不同步,但是玩玩同步一下问题就解决了。

2006-12-15 14:30 qiaolan
回复 #20 onetwothree 的帖子

虽然可能是没有改HACMP的配置,但可能改了和HA有关的一些配置也会影响到的,比如说改了hosts文件、相关的IP地址什么的。

2006-12-15 14:35 orian
[quote]原帖由 [i]onetwothree[/i] 于 2006-12-15 12:54 发表
关于第5点,我见过几次没改过配置就不同步的,有时候它没报不同步,但是玩玩同步一下问题就解决了。 [/quote]

以我这么多年的经验,我拿10头猪担保,一定有什么东西变了。

可能不是你改的,但有人改了,可能又改了回去,但还是改过。

2006-12-15 14:49 onetwothree
[quote]原帖由 [i]orian[/i] 于 2006-12-15 14:35 发表


以我这么多年的经验,我拿10头猪担保,一定有什么东西变了。

可能不是你改的,但有人改了,可能又改了回去,但还是改过。 [/quote]我祈求上天给我一次机会,赢10头猪,我还没中过彩票呢。

2006-12-15 15:42 michaels
上面的兄弟,太牛逼了,我很欣赏你这样的人,大家都应该这样,有心问题的解决就应该放上来,以免大家以后吃亏!!!支持你!!!

2006-12-15 21:11 kingdanis
以前用5.2觉得还是可以的,一到5.3到现在的5.4 bug一大堆,ibm的人自己都说不清个所以然!!

2006-12-16 11:55 chinadns
第五点  碰过一次
中午 停了ha,吃饭去了 ,回来之后启ha
md就提示 cluster config change please sync
查了下配置 没变啊, 重新同步一下就ok了
问了方圆五米范围的同事,没人改  ,五米以外的无从考证了

页: [1] 2 3


Powered by Discuz! Archiver 5.5.0  © 2001-2006 Comsenz Inc.