2008-03-31 09:57:21 来源:信息方略
几乎没有哪个天津市固网电话用户知道,在2005年的某一天,他们曾经有机会打一天的“免费电话”。这并不是中国网通(集团)有限公司天津市分公司(以下简称天津网通)搞的酬宾活动,天津网通也没有事先通知市民会有这样的“好事”,原因很简单,是他们的系统出现了故障。
故障当天,天津网通计费系统失灵,导致当天的通话计费无法完成,不得不临时转成手工记账;不仅如此,系统中存有的数据也受到了一定程度的影响。值得庆幸的是,他们的通话系统还能够正常运转,因此市民并没有感觉通话质量有什么变化。
事故发生后,天津网通技术部门迅速采取了应急措施,经过4个小时的努力,他们将事先备份好的数据恢复到主系统中,使系统重新运转。然而了解事情经过的人,都不能不说网通天津市分公司是“幸运”的。天津网通从2005年开始,就通过向网通集团总公司申请,以试点的方式,对本公司重要业务系统进行了灾难备份。只不过当时的备份还不是实时的,按照当时的备份频率,天津网通公司的计费系统数据每星期备份一次。系统故障出现的头一天,刚好是天津网通计费系统的“备份日”。
问题 PROBLEM
恰好在距离系统故障最近的一个时间点进行了数据备份,天津网通才得以将系统故障造成的损失降低到了最低点。如果备份时间更早一些,计费系统失灵造成的损失就会更大。
这一案例引出了这样一个问题:为什么天津网通不对计费系统数据进行实时备份,甚至是建立一个可以随时切换的应用系统,来避免业务损失呢?
实际上,天津网通已经是率先要求进行灾难备份的分公司之一,而该公司领导也对灾难备份和确保业务正常运行方面的工作非常重视。但很多方面的原因使得包括像天津网通这样的企业在灾难备份中“心有余而力不足”。
其中最主要的原因之一就是成本问题。CIOINSIGHT/信息方略记者在就灾难备份问题采访几位CIO和IT部门经理的过程中,受访者无一例外都谈到了灾难备份系统的高昂成本。
中国国际电子商务中心是负责商务部信息系统建设、运营、维护的单位,它实际上相当于商务部信息中心。该中心技术总监刘军说:“灾难备份的总体建设成本非常高,初期设备的投入是主要方面,而后期的运营维护成本同样也不小。”
中国农业银行贵州省分行科技部副处长骆东辉则说得更加直截了当:“早在2004年的时候,贵州省行就打算进行系统灾难备份建设,但是当时没钱。
不仅如此,原本已经产很严重的成本问题,在各个业务部门难调的“众口”面前更加凸显。中国网通(集团)有限公司(以下简称中国网通)企业信息化部副总经理李莞菁说:“每个业务部门都希望自己的系统达到最高的备份等级。”而中国网通企业信息化部规划处处长娄瑜对此深有体会,她说:“在与业务部门沟通的过程中,当问起他们认为自己的业务最多能容忍中断多久时,他们的回答几乎清一色都是‘当然一分钟都不行’。”
在这样尴尬局面面前,要想最大限度地满足各方需求,充分给各个系统提供灾难恢复保障,就必须采取一个重要的措施,那就是对企业自身业务进行评估,根据不同业务的重要性划分不同等级,并进行不同级别的灾难备份。
解决 SOLUTION
对灾难备份进行分级要考虑到很多因素,例如是同城备份还是异地备份、实时备份还是非实时备份等等,这些因素的组合将灾难备份划分成了若干个不同级别,而不同等级的备份对技术、设备甚至人员素质的要求都是不同的,也因此在建设成本方面产生了相应的差异。
但是对于企业用户来说,他们更关心的问题,是如何让自己企业的各种业务,找到一种与之相适应,至少是与目前IT投入水平相适应的备份级别。这实际上,要求企业对自身的诸多业务进行重新了解,从灾难备份的角度,掂掂它们的“分量”。
李莞菁说:“当时中国网通考虑灾难备份,首先考虑的一点就是灾备的目的。这个目的分成了两个方面,一是保证数据恢复的及时性,二是保证数据恢复的完整性。”根据不同业务对及时性、完整性要求的不同,中国网通对业务系统的重要性和对灾难备份的需求做出了不同的区分。
李莞菁说:“以财务系统为例,ERP中的这一部分对中国网通来说是最重要的系统,它关系到企业的正常运营;而公司的收入又是由计费系统统计的,因此计费系统的重要性也不逊于财务系统。所以,这两个系统必须要做比较高的备份,相比之下,其他级别的系统备份等级不一定要很高。”
但李莞菁也强调,即便这两个非常重要的系统,也要在进行灾难备份建设时考虑各自的具体情况。例如在分析计费系统时,中国网通首先要考虑它的中断所影响的范围。计费系统的中断将影响中国网通业务的正常开展。一旦计费系统出现故障,最严重的情况会影响通话系统,导致用户打不了电话。
而对于ERP系统中的财务系统来说,财务结算所占用的时间只是在月末的几天,因此它对实时性的要求并没有计费系统那么高,中断一两个小时,可能只会造成财务单的拖后。这就不需要让系统达到实时备份,也暂时没有必要特殊强调财务系统的不间断性。但是财务系统的另一方面需求却是不可忽视的,那就是准确性。这就要求灾难备份的数据不能错。
实时备份或非实时备份在网通的财务和计费系统之间得到了区分。对于灾难备份分级的另外两个要素,也就是同城备份或异地备份,这两者也各有各的优势和不足。
总体来说,同城备份对实时性的实现相对更容易,而异地备份无疑对灾难的隔离效果更好。
在国内银行业的系统备份建设中,目前采取同城备份的银行较多。一个显著的特点是,很多银行大多是在同城进行应用级的备份,而在异地做数据级备份。
中国人民银行科技司安全处处长郭全明在谈到灾难备份时,从灾难的影响程度上进行了划分。一是系统不可用,这种情况下,对于一个系统来说,双机热备、N+1冗余都已经失效;第二是机房不可用,可能是机房遭遇火灾、断电等情况;第三是城市不可用,也就是城市遭遇到了地震、洪水甚至战争等灾难。针对不同风险,灾难备份的策略必然是不一样的。
根据这样的风险划分,企业就可以确定灾难备份究竟是要同城备份还是异地备份。李莞菁说:“现在网通的计费系统既做到了同城备份,又做到了异地备份,同城备份是实时的,异地是非实时的。”
郭全明处长说:“灾难备份分成很多个层面,究竟采取什么策略,各个银行不一样,每个银行的不同业务也不一样。”他向记者透露了这一组数字,目前在国内21家全国性银行中,有4家既有同城的应用级备份,又有异地的应用级备份;有9家只有同城的应用级灾难备份;还有5家建设并投入使用了异地应用级备份;另外有3家具有同城或异地的数据级备份。
可以看出,不同企业所采用的灾难备份的方法是千差万别的,但他们有一点是共同的,那就是分级。
有了详细分级的备份,企业就可以将有限的IT投资,率先使用在最重要的系统上,而对于重要性不是特别高的系统,则完全可以先进行数据级的备份,确保数据不丢,随着技术和业务的发展,再进一步考虑是否有必要提高备份级别。
挑战 CHALLENGE
不难想象,数据的集中、数据的整合,无疑会让数据面临的风险更加集中,而当这种集中与灾难备份在同一个时期出现的时候,灾难备份又要同时面临着与其相互协调的压力,银行、电信等灾难备份的带头企业,在进行灾难备份的时候,都不得不把数据大集中的因素考虑进来。
网通的系统整合,是从2004年网通公司正式成立时就开始了的,具体实施从2005年到2007年,历经了3年,目前核心系统已经基本整合完成。
而网通的灾难备份工作也恰恰是从2005年做集中系统建设的时候开始的。网通公司当时面临的一个问题是“先整合还是先容灾”。而在一个集团成立之初,为了加强集团集中管理的力度,进行系统整合是必然趋势。但如果在整合之前或同时,就在各地市级公司同时进行灾难备份工作,则无疑是一件“很不值得”的事情。
中国网通企业信息化部规划处处长娄瑜说:“在系统整合之前,原有的计费都在地市级网络上,如果某个地市级系统瘫痪,影响的范围是局部的;但是系统整合之后,一个省只有一套系统,影响的范围加大了。如果系统中断,全省业务都会受到巨大影响。”
除此之外,系统变得庞大、复杂,也使得系统恢复时间产生了差异。这与用户数量的规模密切相关。娄瑜介绍说,在地市级网络上,用户量相对较小,系统恢复很快;而到了省级网络上,用户量最小也有300多万,大的一个省有2000多万用户,一旦出现问题,系统的恢复也难得多。
如此看来,系统整合的步伐的确给灾难备份提出了更高的要求。但是,中国人民银行科技司安全处处长郭全明却给了我们观察灾难备份与系统整合之间关系的另外一个角度。
他认为,做灾难备份,是一定要先进行系统合的,只有系统集中之后备份,才能有更好的效果。
他举例说,假如一家银行在全国有六个数据中心,那么让这六个中心相互备份是非常困难的,实际上没法实现。主要的原因是,目前很多银行各个数据中心在系统建设之初采用了大量的异构系统。从接入层、应用层到数据库层,都是各成一套体系,特别是很多银行采用了UNIX等开放平台系统,更加大了备份的难度。但是相比之下,如果将多个分行的系统统一集中到全国的一套系统中,采用相对统一的结构,这样灾难备份就相对容易实现。
李莞菁也特别提到了异构系统对灾难备份的阻碍作用,她说:“很多企业在进行信息化建设时,会用到多个IT厂商的系统,这些系统的兼容性往往很差。这种情况下,如果我们的备份服务器用的是一个厂商的,而又有很多其他品牌的存储,那么我们在进行灾难备份的时候,就很难将这些存储用上,这对IT厂商来说可能是捆绑客户的好方法,但是对用户来说却不是好事。”
要真正做到备份,要想好多办法。用郭全明的话来说就是,“做一次,就知道有多复杂。”郭全明认为,银行的数据大集中,对灾难备份是一个机会,这使得银行能够有机会将关键业务统一筛选出来,在数据集中实施之后,从业务规程,在IT架构方面进行梳理,为下一步的灾难备份工作做好基础。
战略 STRATEGY
如此看来,灾难备份绝不是一件轻松的事情,做好灾难备份一定要讲求策略。除了根据业务的重要程度采取分级备份的措施外,还有一些需要注意的要点。对开展灾难备份,李莞菁总结出了一个“12字原则”。
首先是“统一认识”。她说,一提到容灾,很多人是从技术角度来探讨,而很少从业务角度谈。
其次,要“整体考虑”。李莞菁强调,做灾难备份规划,不能仅从单点着眼。例如重视了计费系统的容灾,却忽视了ERP的容灾,这是行不通的,因为计费系统与EPR系统之间,实际上是有对接的。如果两者中的一个系统进行了容灾,而另外一个没有,那么就像是“断了一条腿”。最后是要“分步实施”,李莞菁结合网通自身信息化的现状指出,灾难备份一定要分步实施,不能一步到位,而且要抓住重要系统率先实施。
中国国际电子商务中心技术总监刘军对灾难备份有着自己的理解。他说,灾难备份的一个重点在于系统建成后的系统化管理,比如升级、同步,这些后期工作一定要在严格的管理下进行。据他介绍,中国国际电子商务中心的灾难备份,已经形成了一套管理流程,中心已经成文了一套书面文件,指导灾难备份相关人员在遇到紧急情况时正确地采取相应措施。
而且刘军强调,灾难备份系统建成之后,一定要定期演练。他说:“灾备系统风险大、投资大,但是发生灾难的概率却非常小。系统建好了,这辈子能用上都不一定。因此一定要对灾难备份的巨大投资,给予充分的重视。”
对此,中国人民银行的郭全明处长提出了一个好的建议,那就是将灾难备份系统在平时当做一个测试系统来使用。这样做的好处很多,一方面可以充分利用灾备的资源,另外一方面可以培养灾备人才,还可以通过主备系统之间的切换,在不影响业务正常运行的情况下,进行系统的升级,可谓一举多得。
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。
