首页 > 大数据 > 正文

数据中心里的应急关机技术

2015-11-24 10:09:14  来源:企业网D1Net

摘要:数据中心需要全年不休地运转,无时无刻都在对外提供各种应用服务。数据中心里有大量的电子设备,也和人一样是需要休息的,不然迟早都会出现这样那样的问题,其中应急关机就是数据中心自我保护的一种方式。
关键词: 数据中心
  数据中心需要全年不休地运转,无时无刻都在对外提供各种应用服务。数据中心里有大量的电子设备,也和人一样是需要休息的,不然迟早都会出现这样那样的问题,其中应急关机就是数据中心自我保护的一种方式。显然在关机的前面增加了一个修饰词“应急”和关机的意义就完全不同了,应急关机必然不是关机那样关闭一下按钮或者拔掉电源那么简单。前面也说了数据中心是全年不休地工作,对数据中心内的设备进行关机,需要考虑这样的操作对整个数据中心的业务影响,是否在关机之前做足了准备工作、是否制定了详细的关机预案、是否有回退机制等等,这绝非是开关一下电源那么简单。下面就来详细说一说数据中心里的应急关机。
 
  应急关机是提前有周密计划来关闭部分运行设备的方案。应急关机作为应急响应过程的处置之一,是每个数据中心都必须考虑的问题,在很多特定的场合下,数据中心就需要应急关机。比如:由于数据中心自身存在的缺陷被暴露,或者数据中心所在地区出现了地震、火灾等灾害,使得数据中心可能受到外界的严重威胁,使得数据中心数据受损或者被破坏,在不得已的情况下就需要启动应急关机,临时关闭部分甚至全部的对外业务,保护数据中心不受到损坏;数据中心里的电子设备特别多,这些设备或多或少都存在一些问题,这世界上没有一点BUG都没有的软件,认为自己使用的设备没有问题,只不过是还没有碰到BUG 而已,所以一旦数据中心遇到这些设备BUG,很多时候就要对设备进行软件升级,补丁搞不定就需要升级软件版本,可很多设备还无法做到不重启升级软件,这就需要应急关机,对设备进行关机重启;还有数据中心里的服务器、存储等设备运行久了,长时间运行不重启会累积大量的内存垃圾,周期性地对这些设备进行主动重启,可以提升设备的运行效率,而且主动重启设备还可以规避一些BUG暴露出来,避免BUG导致设备运行异常而对数据中心业务造成影响。如此看来,应急关机是数据中心运行过程中不可缺少的重要一环,每个数据中心都要经历的一个方案,是对数据中心运行的一种主动保护。
 
  应急关机需要做好三方面的准备工作,才能通过关机达到预期效果。在一些紧急情况下,有应急关机方案,往往可以使数据中心免遭一劫。首先,关机前要做好关机的流程。在数据中心里,应用与应用、应用与设备、设备与设备之间普遍存在着依赖关系,一定要按照固定的关机顺序来执行,避免应急关机给数据中心带来伤害。比如:在计划关闭网络设备之前,应该先将各种数据库服务、存储服务、支付系统等重要应用切走或者关闭,然后关闭外部访问入口、关闭计算节点、管理节点等,避免直接关机网络设备对正在提供服务的系统紊乱或者数据丢失,做好这些步骤后再去关闭网络设备,一般步骤应该是先关闭应用层服务、然后底层数据传输设备,最后是物理链路,越上层的服务越应该先关机,在应急关机前要将操作的步骤固化下来,然后按照步骤依次执行。与此同时,对于每个操作步骤的耗时要进行预估,确定各个环节花费的时间,控制好应急关机的各环节,一旦与预期不符,还要启动相应的回退或者规避方案。既然叫应急关机,更多的时候关机是突发、临时执行的,难免会出现执行异常的现象,与原有的预计结果不符,这时就需要根据实际情况灵活应对。在应急关机之前应该准备好备件,对关键设备进行备份,将部分配置提前做好,一旦出现异常情况时直接用备件进行替换。在无法避免损失的情况下,一切以关键数据的划分结果为依据进行取舍,这种情况下考验着数据中心人员的智慧。还有关机的时长也是一项必须要考虑的重要因素。很多时候在关机步骤执行完毕之后,往往需要密切关注数据中心外部情况,确定再次开机的时机,也有的时候应急关机是很快又进行开机了,这个关机的时间长短要根据出现紧急情况的具体情况,经过评估来确认关机时长。其次,在关机执行过程中,每一个步骤执行完毕后,都需要对执行结果进行确认,同时与原有预期进行对比,看是否达到预期结果。当发现与设定的情况不符,或者已经出现了失控局面,需要即刻启用回退方案,恢复原有运行状态。最后,应急关机后,根据设定的关机时长,还需要进行开机。开机后,需要对数据中心运行情况进行密切关注,不是设备都启动起来就完事儿了,很多时候评估数据中心是否运行正常、稳定,往往需要观察数天,一旦发现依然存在问题或者风险,还可能需要二次应急关机。
 
  从应急关机的三大部分,在关机前要做的工作最多,也最为重要,这也正是应急关机的重要体现。当应急关机策略制定完成后,应该定期组织应急演练,发现缺陷马上进行修复,确保最终应急关机方案没有漏洞,应急关机的方案也不是一成不变的,随着时间的推移和人员的变更,还需要不断进行修改。这样周期性地组织应急关机的演练非常重要,只有这样才能发现方案中的不足。
 
  任何一个数据中心都不愿意出现需要应急关机的情况,但是一旦必须要做出关机决定时,就一定要提前做好充足准备,有详细的应急关机预案,以免在应急关机时,人员都手忙脚乱,毫无组织,乱作一团,这样的应急关机往往会给数据中心带来严重损失,起不到保护数据中心的目的。

第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:pingxiaoli

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。