宁夏银行7月系统瘫痪最新解析: 以史为鉴、可以明ITSM
【国聿Hot Rpt】以史为鉴、可以明ITSM:宁夏银行7月系统瘫痪最新解析
【引言】银行系统相对复杂,银行IT建设也相对要求严格与苛刻,在建设好了IT系统之后,只是万里长征走了第一步,后面更为重要的是长期的运行与维护,包括核心设备、核心系统、网络、以及数据库、各类应用的后续维保等。人民银行2013年的年报,就特别强调,“要把IT被动运维转变为IT主动运维”;宁夏银行发生的IT系统灾难事件的根本原因是在于该行没有ITIL/ITSM的概念、安全生产“前瞻性意识”薄弱、应急管理体系缺失、应急处置过程混乱;总之一句话,缺乏IT运维管理、缺乏ITSM/ITIL/ISO20000 体系和相关的执行、落地,估计相关的ITIL流程管理软件系统目前该行也肯定没有;所以也谈不上“主动运维”。该行核心系统数据库版本严重老化,且2007年至今未购买核心数据库的维保服务,核心系统长期缺乏维护,事故发生后,无法获得系统供应商及时技术支持。系统恢复过程中,缺乏应急预案和准备,长时间无法实施有效处置,导致业务恢复缓慢,对银行运营产生较为严重影响。有网友评论道:“系统维护没有跟上、缺乏最基本有效的运维管理和运维管理工具和手段,再好的方案也会有问题。所以应该要上相关的管理工具。(国内主流的相关管理软件其实有很成熟的、例如国聿的Ahoova ITSM软件、BMC的ITSM软件)”本来,在一个有ITSM主动运维的机制里面,以上这些问题发生的概率极低、而且一旦发生也有很好的快速应对措施,因为ITSM系统的前瞻性自然会防患于未然、而非仅仅等问题发生了、才被动应对;所以,ITSM很重要!有一套基于ITIL国际标准的ITSM流程管理软件系统来支持也很重要!
关键词:“IT运维管理的前瞻性意识、相关的ITSM流程管理软件工具” (Proactive Thinking for ITSM, proactively control disasters, not just reactively. Relevant ITSM software tools.)
·======================
这段时间,存储圈内对宁夏银行7月系统瘫痪事件讨论热烈,为什么作为在IT基础架构和系统建设都相对严谨和严格的银行会频频出现宕机等问题。可能大家还记得2013年6月工行和中国银行的两次事件。“6月23日,中国工商银行系统瘫痪导致全国多地工行系统柜面取款、ATM、网银等无法办理。24日,中国银行系统也短暂瘫痪,一时间金融业钱荒,银行股价暴跌,金融市场流动性紧张。”对于去年发生的银行系统问题,网友讨论也比较多,归结起来,还是系统维护方面纰漏、IT运维管理不到位。
对于今年宁夏银行的系统瘫痪事件,官方消息如下:
银行二部(2014)187号正式发全国文件,对宁夏银行事故的描述大致如下2014年7月1日,宁夏银行核心系统数据库出现故障,导致该行(含异地分支机构)存取款、转账支付、借记卡、网上银行、ATM和POS业务全部中断。经初步分析,在季末结算业务量较大的情况下,因备份系统异常导致备份存储磁盘读写处理严重延时,备份与主存储数据不一致,在采取中断数据备份录像操作后,造成生产数据库损坏并宕机。因宁夏银行应急恢复处置机制严重缺失,导致系统恢复工作进展缓慢,直至7月3日5点40分核心系统才恢复服务,业务系统中断长达37小时40分钟,其间完全依靠手工办理业务。该事件的根本原因是在于该行安全生产意思薄弱、应急管理体系缺失、应急处置过程混乱。该行核心系统数据库版本严重老化,且2007年至今未购买核心数据库的维保服务,核心系统长期缺乏维护,事故发生后,无法获得系统供应商及时技术支持。系统恢复过程中,缺乏应急预案和准备,长时间无法实施有效处置,导致业务恢复缓慢,对银行运营产生较为严重影响。
对于这个事件的发生,网上论坛有网友开始怀疑当时在2010年进行的高大上的宁夏银行800公里灾备演练,当时号称区域性商业银行的第一次。查阅资料,回忆当时演练现场,时任宁夏银行信息技术部总经理的王春表示,随着区域性商业银行的跨省发展,实施灾难备份系统已经势在必行,宁夏银现在实施成功之后,实现了宁夏银行所提出的“提升业务连续性,提升业务管理水平”的战略目标,做到了核心系统的灾难恢复的“全范围覆盖”。但是,严重的系统瘫痪事件还是发生了。有网友评论道:“系统维护没有跟上、缺乏最基本有效的运维管理和运维管理工具和手段,再好的方案也会有问题。所以应该要上相关的管理工具。(国内主流的相关管理软件其实有很成熟的、例如国聿的Ahoova ITSM软件、BMC的ITSM软件)”
【下面答复几个大家会好奇地自然而然提出的几个疑问:】
第一、为什么IT系统会出问题?
1)现代IT系统非常复杂,当系统大到一定的程度,总会有失控的状况。世界上就从来都没有过没错误的复杂程序,问题只在于这个错误你有没有碰上而已。银行的系统是由很多不同软硬件厂商的产品拼在一起运作,复杂程度远超过普通家用电脑,这么简单的家用电脑还会死机呢....而且系统复杂到一定程度,就不是人多或者钱多就能完全解决问题的了。
2)要尽量不出问题,要钱,很多钱(比如中型银行建设一个过得去的容灾系统要上亿)。但出问题只是“有可能”,花的钱可是实实在在的。换了你是领导,你也不会无限制的向里面投钱。
3)稳定运行的最好的办法之一是不对系统进行改造。由于有新的业务要求,系统确实要不停的升级,很多银行每周都在升级,每次变动对系统的稳定运行都是一个挑战。你每天走路有时候还会摔倒,只要一动作,就有出错的可能,这就是科学。
第二、为什么会大面积的出现问题?
因为三个字:大集中。最早之前,银行系统还没联网,一出问题只是某个区或者某个市。最近十多年银行业都在搞大集中:五大行除了中国银行之外的四家都已经完成了大集中。
第三、为什么没有应急预案或者应急预案没有起作用?
与电信运营商,政府行业,普通企业相比,银行是中国IT业中IT基础最好,最严谨的行业。比如有的银行还要求厂商维护人员不能操作,只能银行员工操作。
大的变更一定会有预案,甚至换个硬盘,改个IP这种做过几百次的操作都会有预案。但预案与真实一般都有相当差距。上面已经提到系统非常复杂,可能出现的问题如果真全部写下来,可能有几百几千分支。而且,系统的故障并不会根据你的应急预案来发生。只靠应急预案真解决问题的概率比拿着《泡妞指南》泡到美眉的几率还低,应急预案的最重要的作用是应付上级监管,根据应急预案搭好可能需要的应急软硬件环境,大致理清概要思路,以及锻炼团队。真有复杂问题,还是靠牛人现场解决的多。
第四、为什么要停几个小时这么久?
先说定位问题的时间:从发现问题上报到IT信息中心(或者在监控系统发现问题),IT中心的人开始查系统,定位故障原因,如果定位不清还要找相关的软硬件人员到场或者远程网络支持(基于安全原因,银行大部分都不能远程网络查看系统,维护人员到数据中心也需要时间,如果还堵车.....),找出问题的根源,一小时算超快的了。类似你莫名高烧,到底是哪个器官出问题,去医院做检查做判断总需要时间吧?解决问题就更不好说了,其实和大家的电脑一样,往往重启是最有效的方法,但很多业务系统部分出现问题是不能重启的(可能会影响别的业务系统)。至今国外各大厂商的标准维护合同,绝大部分都没有承诺修复时间。根据手头的一份略过时的银监会突发事件应急管理规范:一个省停业6个小时以上才算I级特别重大突发事件,3小时是II级,半小时以上是III级。以管窥豹,落叶知秋,几小时真不算什么。【网友评论】如果引入ITIL的SLA(服务级别协议)的概念、加上相关软件工具的落地执行,这个问题就迎刃而解了!
【点评】:银行系统相对复杂,银行IT建设也相对要求严格与苛刻,在建设好了IT系统之后,只是万里长征走了第一步,后面更为重要的是长期的运行与维护,包括核心设备、核心系统、网络、以及数据库、各类应用的后续维保等。总而言之,ITSM很重要!有一套基于ITIL国际标准的ITSM流程管理软件系统来支持也很重要!