首页 > 基础设施 > 正文

数据中心防停电十大妙招

2010-02-03 10:58:06  来源:机房360

摘要:电网中任何一个细微的电力系统设计漏洞,都可以轻易地使现代先进的数据中心停止运转。这里讨论了建立和维持数据中心电力基础设施高可用的10个方法。
关键词: 数据中心停电 数据中

  今天IT对于一个公司变得越来越重要了,如果没有它,大多数组织将无法为客户服务,无法和合作伙伴协作,无法开发新产品,甚至连开展最基本的业务可能都困难。因此,数据中心的可用性已经成为提高公司竞争力和盈利能力的重要先决条件,然而,尽管尽了最大努力实现了5个9的可用性,但企业仍面临各种各样的威胁,其中最主要的问题就是电力系统。数据中心依赖稳定持续的电力供应,但在电网中任何一个细微的电力系统设计漏洞,都可以轻易地使现代先进的数据中心停止运转。

  幸运的是,企业通过改变他们的业务流程和电力系统管理办法可以大大减少停机时间。这里讨论了建立和维持数据中心电力基础设施高可用的10个方法,希望对你有帮助。

  1.打破组织障碍让IT和设备两部门不再各自为政

  大多数企业都有两个部门负责数据中心的管理:IT部门和设备部门。IT部门负责监管数据中心的计算机基础设施和应用程序,一般向CIO汇报。设备部门负责能源和冷却要求,一般向首席运营官(COO)或企业副总裁汇报。这种划分的组织结构,在大企业中存在很长一段时间了,这两个部门之间通常缺乏有效的沟通。

  在历史上,即使IT和设备部门缺乏沟通,对数据中心的可用性也没带来多少危险。但今天,大型数据中心电力供应已日显不足,IT管理人员开始重新配置服务器和工作负载,因为他们不想让电力和冷却系统压力过高。

  当今的服务器基础设施变得越来越庞大,产生的热量越来越多,耗电越来越厉害。此外,广泛采用的刀片服务器和虚拟化技术,虽然简化了管理,提高了服务器的利用率,但也极大地提高了计算密度和发热量。要知道,在今天的数据中心中,如果未咨询设备工程师就随便移动硬件,很可能会导致电力负荷超载,或使暖通空调(HVAC)系统散热效率打折扣,致使关键业务系统受到影响。

  然而,不幸的是,虽然数据中心最近几年已经发生了巨大的变化,但其组织结构却没有变化,IT和设备两部门依然各自为政,对重要运营事项缺乏充分的沟通。

  推荐方法:为了降低与电力系统相关的停机概率,企业应该建立明确的业务流程,明确定义数据中心在实施变更前IT管理人员和设备管理人员应该如何以及何时交换意见。为了进一步促进IT和设备部门之间的沟通,企业也应该考虑调整组织结构,如让IT和设备部门向同一个主管汇报,这样可以促使IT和设备部门员工之间更容易互动和交流。

  2.不要看短期成本,更应看长期价值

  在许多企业中,在数据中心建设或改造期间,短期和长期优先权往往会发生冲突。高级管理人员往往都要求负责数据中心建设的人降低成本和缩短工期,因此,数据建设项目的供应链参与者、工程师、建设者和项目经理都倾向于选择那些投标报价最低、承诺最快交付的投标企业。

  但负责数据中心运营的人有不同的想法,他们希望公司更看重长期利益,最便宜的硬件确实可以降低数据中心的建设成本,但如果这些廉价的设备不能满足最初架构设计中定义的运营技术规格,会降低效率和正常运行时间。

  推荐方法:数据中心建设或改造项目的评审和决策管理人员应该仔细审查采购决定,各级管理人员应注重长远效益,不要贪图短期的节省。他们也应该严格执行最初设计的运营规范,哪怕施工过程中多一点消耗也是值得的。

  公司在为设施建设管理人员确定目标时,应尽量少强调近期降低成本的目标。如果不奖励施工队可能会引起他们的不满,施工时偷工减料,这对数据中心的长期运行的可用性带来了潜在的不利影响。

  3.采用标准化工作流程,减少随意性

  IT部门越来越多地开始使用标准化的最佳实践框架,如信息技术基础设施库(ITIL,InformationTechnologyInfrastructureLibrary),来帮助他们更系统化地优化工作流程。ITIL最初由英国政府在1980年开发,它定义了明确、有效和可重复的方法来处理事件管理,服务台的运作和其它常见的IT任务。遵循ITIL规范执行的组织通常可以更好地控制资产,使他们更容易诊断和解决IT中断。

  不幸的是,很少有组织采用了严格、统一的维护流程,而是依赖于即兴的过程和设备管理人员累计的经验,因此,电力和冷却系统的维护标准往往低于IT系统,造成停机时间增加。

  推荐方法:虽然设备维护流程框架还没有向ITIL那样开发彻底,但设备部门应该开发自己的流程标准,如果能够用一致、可重复的方式完成一些基本的活动,可以大大降低电力和冷却系统出现故障的可能性,同时提升了设备技术人员的生产力。

  4.维护一个设备变更管理数据库,别因小失大

  航空工程师和维护专家早已理解了变更管理流程的重要性,维持一个全面准确的飞机维护记录是确保飞机安全飞行的关键。此外,遇到发生不幸的意外后,维护记录可以提供极其重要的法律依据。与此相似,ITIL特别强调应仔细跟踪IT资产的变更,并将数据保存到变更管理数据库(CMDB)中,CMDB中的信息可以帮助IT人员更有效地解决服务中断故障,在应急情况下特别有用。

  然而,不幸的是,很少有设备部门维护了CMDB,唯一的记录可能都是几年前搭建系统时移交而来的,大部分数据都装在设备管理人员的脑袋中,如果设备管理人员离职或退休,这宝贵的知识就流失了,当电力或制冷系统出现故障后,引起的停机和恢复时间可能很长。

  推荐方法:设备部门应该建立和严格维护一个他们自己的CMDB,ITIL规范提供了一个有用的出发点,企业也可以购买专门的CMDB软件。

  5.电力系统选型,可靠性和维护便利性两手都要硬

  人们经常使用可靠性和可用性这两个词语,但实际上它们表示的含义却有所不同。可靠性是指衡量系统发生故障之间的平均时间,也叫做MTBF(MeanTimeBetweenFailure),另一个是指恢复系统所需要的时间,也叫做MTTR(MeanTimeBetweenFailure)。对于可用性有如下公式:可用性=MTBF/(MTBF+MTTR)

  服务器、交换机或电源可能十分可靠,很少出现停机故障,但它们可能并不具备高可用性,因为它们有较高的平均修复时间(MTTR),但IT部门在评估系统的可用性时常常忽略修复时间。

  比如,假设公司要决定在总部是采用普通的荧光灯管还是更尖端的LED灯管。LED的可靠性更高,因为很少出现机械故障,但出现问题时,如果本地库房或当地经销商处没有备用的LED灯管,那么替换出问题的灯管可能是一个非常耗时的过程。另一方面,荧光灯管的平均无故障时间大约6000小时,可靠性差得多,但是要更换它们很迅速,价格也很低,因为它们是一种标准产品。同时考虑可靠性和平均修复时间,荧光灯管实际上可能比LED灯管提供更好的可用性。

  同样的逻辑也适用于电力系统中的基础设施组件,原本设计不间断运行的系统,如果修复操作比较耗时,那么长远来看并不能提供高可用性。

  推荐方法:评估电力系统组件时,企业应寻找可靠性高,且能快速修复的产品。尤其要仔细调查电力系统制造商如何快速有效地提高产品维修服务,如核实该制造商雇佣了多少服务工程师,他们驻守在哪里,当你的数据中心中断后,他们如何才能迅速抵达现场?是24*7小时支持吗?服务工程师对该制造商的产品了解得有多深入?如果他们不能解决问题,是否有其他办法?如果制造商不能在故障发生后快速地派遣经过严格培训和有准备的服务人员到场,即使是最精良和可靠的电力系统最终提供的可用性也穷得可怜。

  企业还应该寻求具有冗余的和模块化设计的产品,如果一个模块失败,其它模块自动顶上,提高了系统的MTBF。此外,模块的更换也更容易,通常一两个技术人员就可以快速安装上,甚至不需要制造商的协助,因此MTTR就大大降低了,可用性就更好了。


第三十四届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。