首页 > 基础设施 > 正文

数据中心检修的5大经验教训

2008-07-07 09:37:46  来源:IT专家网

摘要:以夏威夷大学海洋与地球科学技术学院 (SOEST)的数据中心转移为例,尽管早在项目开始初期我们就制定了计划并经常更新计划,然而,到最后一刻,我们依然体会到了一丝小小的诧异,那些
关键词: 存储 数据中心

    一个成功的项目所应具备的最重要的3大因素是什么?计划,计划,还是计划。以夏威夷大学海洋与地球科学技术学院 (SOEST)的数据中心转移为例,尽管早在项目开始初期我们就制定了计划并经常更新计划,然而,到最后一刻,我们依然体会到了一丝小小的诧异,那些可怕的细节问题花费了我们大量的时间和金钱。下次再碰到这些问题时我们的处理方式就会有所不同。你也可以从我们的失误中吸取经验教训。

  夏威夷地球物理研究所(HIG)那小小的房间---HIG 319对于服务器来说并不陌生,尽管它只是在一种偶然的机会下与那些服务器相识。项目启动初期,这个房间就已经安装了6个机柜,其中一个支架上安装有APC 80kW InfraStruXure UPS,有40KW的容量已经被使用,剩下的大部分支架中仅有部分支架上安装有服务器,为SOEST中的各个学院提供服务。

  SOEST需要新的数据中心来容纳大量新的服务器集群,以供研究实验室使用。最初的估算将增加3个由传统服务器及刀片式服务器混合而成的集群,这3个集群位于新的支架上。如何管理这种升级?这就需要将HIG 319 的建筑面积增加两倍,在新的配电盘的回路遮断器上额外地再增加250 amp的电源,并且彻底地修复制冷系统,这些在项目开始初期主要由3个壁挂式空调设备组成。这3个空调设备的功能已经发挥到了极致,然而效果不是很明显。

  尽管HIG 319从地理位置的角度来看存在一些缺陷,然而,紧迫的时间期限使得我们无法与大厦的行政管理人员协商以在大厦的底层获得一个更加有利的位置,而且该大厦的底层分布着多个研究实验室。然而,故障维修通道位于该房间的正后方,这是一项非常好的优势;紧邻HIG 319房间的是一间几乎未被使用的储藏室,与HIG 319 房间一样大。如果将这两个房间合并,就能为我们提供所需的建筑面积。下面,让我们做一下深呼吸,全身心的投入到这项工程当中。

  经验教训1:为你的物理空间提供良好的物质基础

  基本的任务清单于2007年2月出来,相应得工作随即开始。首先临时转移HIG 319现有的服务器,移走HIG 319A之前存储的所有物品,拆掉两个房间之间的墙,移走房间里所有零碎的东西。当学校的设备管理部门第一次向我们提出这个意外的难题时,房间里已经安装好了华丽的瓷砖,墙面已经粉刷一新,而且还铺上了新的电缆。

  由于SOEST大厦已经具有50多年的历史了,按照夏威夷大学(UH)的标准惯例,需要请结构工程师对该房间的整体状况进行检修诊断,判断房间内部是否安装有与新数据中心同等重要的东西。然而,当时我们并没有发现那些细微的细节,直到最后一切都无法改变。更进一步来看,由于该大厦的原始结构记录已经消失在夏威夷的热带气候中,因此从工程师的角度考虑,他不得不重头开始。

  这使得项目在开始的一个月时间内处于瘫痪状态,因为在工程师作出诊断结论之前什么都不能做。一个月之后,工程师宣布楼层已经处于稳定状态。尽管这两个房间能够容纳一个数据中心,但是这样的数据中心仅仅只会是一个轻量级的数据中心,因为大部分机柜最多只能承受800镑的负载,这个支撑梁的负载能力不会有太大的例外。假设一个完全集群式机柜的重量达到2000镑,而在新的数据中心中,我们已经计划将12个机柜中的其中6个分配给Beowulf集群,对于那些处于困境中的人来说,这点非常令人讨厌。没办法,他们只能从头开始。

  经过一番激烈的讨论和沟通之后,我们看上去已经具备了有效的工作环境。这4台服务器集群将会被转移到另一个位置,同时在HIG数据中心的12个InfraStruXure机柜上将安放来自SOEST各个部门的服务器。这将促使HIG 319成为所有学院数据中心的核心,同时释放另一个位置上的集群空间。虽然这并不是最佳的解决方案,但是如果学院打算安装其所需的新的服务器集群,那么这种转移就是有必要的。

  经验教训2:不要吝啬专业服务的投入

  为了重塑HIG 319的形象,恢复其使用,我们与APC公司就电源、制冷解决方案及机柜需求问题初次开展了正式沟通。我们从APC反馈得到的信息涉及到这两个房间的建筑面积、当前的电源、制冷规格、预计采用的服务器及机柜负载等问题。APC通过其数据中心计划工具来获得这些数据,然后返回一系列的PDF文件,为我们提供了一个初步的计划平面图。此外,APC还提出了电源和制冷解决方案的名称及模块数量的参考建议,并且为新数据中心每一个机柜勾画了一个基本蓝图。最初,这一切看上去都很顺利,但是后来发现我们犯了一个致命的错误。

  APC非常友好,它不仅志愿提供项目所需的设备装置,而且还志愿提供项目所需的人力。该公司希望能够尽量的节省开支,这点可以理解。因此我们项目的设计运营采用节约成本的模式,而不是采用APC数据中心的全专业化服务模式。从APC的角度出发,这种华丽的模式将需要投入更多项目经理级别的人力。

  对于那些正致力于其数据中心项目建设的读者来说,我们无法过分地推荐其花费资金在核心厂商如APC的全专业化服务上。即便我们对这种服务具有较强的渴望。夏威夷大学代表指出,其已经设法尝试通过某种途径筹钱,因为如果为了节省资金而尝试不依赖专业化服务,这种做法极具风险性。这点很快就得到了我们的证实。

  尽管我们收到的仅仅只是装满PDF文件的电子邮件,但是即便在计划的早期阶段,APC的项目经理也会仔细回顾电话会议的每一处细节。项目经理还将提出相关的建议,为配线、配管及其它准备条件提供参考。在此,我们没有选择一流的专业化服务,只是简单地在APC公司的Web网站上查阅一些参考资料,这些资料列出了各种不同的制冷解决方案所需的配管规格。除了自身设备因素之外,夏威夷大学空调系统工程师对设备的某些规格没有了解清楚,从而使得我们做出了错误的选择。

  简言之,专家指导不可替代。APC项目经理将会为我们作出最合适的选择,然后简单地告诉我们要安装什么。正确的配管不是在最后一刻进行修正,而是一开始就应该深思熟虑,否则,到最后你就得付出昂贵的代价,花大量的精力来弥补所犯的错误。

    经验教训3:为项目团队的每个成员指定具体的责任

  尽管在此我们可以向咨询顾问寻求帮助,但是在制冷解决方案问题上,APC公司确实给了我们一些很好的建议。不管有没有APC的咨询顾问,为项目团队中的每一个成员分配具体的责任都将是一项很好的举措。虽然我们有项目领导来协调项目活动,从而确保工作的顺利完成,但是我们并没有任何人来跟踪关键细微的细节,如产品说明书、订单情况、辅助材料等,这些常常会阻碍我们的进度。

  制冷解决方案订单就是其中一个典型的案例。最初,我们希望使用大厦的冷水制冷机,因为对于小型数据中心来说,那通常是最有效最节约成本的选择。然而,冷水制冷机设备已经被用于冷却现有的实验室,因此我们不得不使用其它一些解决方案。

  APC的产品工程师采用头脑风暴法集思广益,推出了InRow RP产品。这款产品装有两个顶置式冷凝器,与两个带APC SX机柜的压缩机和蒸发器装置相配套。从成本的角度考虑,与冷水制冷机相比,InRow RP产品是下一代产品中最便宜的,其安装绝对的简单。在顶上安装合适的支架,在HIG 319和319a房间中通过房间后面的管槽配置合适的配管,我们能够达到很好的效果。最大的优势在于,InRow解决方案从很大程度上来说要比传统的数据中心制冷单元要更加有效,从而使我们能够节省大量的电源。

  经历了实时结构检测的风险之后,SOEST的领先设备管理者Phil Rapoza坚持谨慎细心的原则。Phil断然地拒绝在顶置式冷凝器的基础上启动建设任务,除非冷凝器的确已经到位。这也是一件好事,因为我们所收到的这两个multi-ton冷凝器单元与APC的submittal drawings中描述的稍微有所不同,这种不同足以使最初说明的支架规格变得没有毫无意义。

  在我们准备运输冷凝器单元之前不久,关于冷凝器的最后一个问题出现了。我们的项目团队想当然的认为APC销售团队会知道使用户外密封剂来封装冷凝器,因为夏威夷的空气中盐度非常高,因而容易导致生锈。但是,在这整个运输过程当中,APC项目经理没有参与,我们当中没有人留意到这种状态,甚至连APC的销售人员都没有考虑到这种情况。

  结果,冷凝器一到,就必须从运输公司的集装箱卡车上转移到大学的卡车上,然后再转移到岛上其他专业防天气变化的场所。这对SOEST来说是一笔相当大的额外开销,在项目建设阶段,相当于5天时间的延迟所产生的额外开销。

  让项目团队成员来负责跟踪订单的具体细节及其它琐事,这样才有可能避免这些困难的发生。不受天气影响的特性应该包含在最初的冷凝器状态中。冷凝器模式的改变早在其运输到达之前就已经受到密切关注,从而解开支架问题引发的困惑。如果你正全身心地投入到数据中心项目中,你就应该确保在预算清单之上有一个专门的、细节导向的项目经理。相信我们,随着项目的向前发展,这个位置的存在将比这位位置本身更具价值。

  经验教训4:保持团队的凝聚力,与你的厂商保持密切联系

  项目经理要特别关注的一个方面就是厂商。在很多方面,厂商会成为你成功的绊脚石。因此要像老鹰一样看紧它们。

  其中一个例子就是我们与APC公司的运输经历。APC为我们这个项目的运输投入了大量的传动装置,这些投入让人吃惊。我们使用一辆40英寸的集装箱卡车来运输我们的货物,集装箱被塞得满满的。不需要连夜运输。运输公司通过地面和海上运输方式来为我们运输货物,我们并不是直接与APC交易。这正是麻烦开始的地方。

  很显然,我们过分相信APC公司的话了。APC告诉我们按照规定货品已经在运输的途中,他们只是依次将运输公司的话转达给我们。然而,最后事实证明,我们的货物通常要比我们想象的到达时间晚。当我们意识到冷凝器必须要不受天气的影响时,时间成为了此刻我们所面临的最大问题。因为项目的最后期限只剩下两周的时间了,在日程表中再增加大约一周的防天气计划将会成为一个很大的问题。

  但是当APC试着从货运公司的记录中找出我们的货物以了解我们是否可以中断冷凝器的运输从而使其能够对货物进行包装,或者是加速冷凝器的运输从而使得我们的时间不会太紧急时,货运公司却无法为我们提供准确的位置所在。等到它们知道货物的准确位置之后,冷凝器已经跨越太平洋了。我们甚至不能要求货运公司优先运输我们的集装箱,以使其能够在周一一大早就到达码头。最后,我们只好改变项目的最终期限,推迟了日程表。熟练掌握厂商的运输过程可能是一件非常痛苦的事,但是从项目日程的角度来看,这将会为我们提供宝贵的工作效率。

  关注厂商的另一个重要部分就是熟练掌握设备的状态。在这点上,我们几乎都不够仔细。我们的建议是:不要仅仅关注状态,要留意采购订单,并且假设它们正在运输你所想要的。我们这么做了,但是它让我们失望了。即便是计划再周密的厂商在供应订货时也可能犯下致命的错误。

  只有我们设备经理Phil Rapoza的谨慎将我们从APC冷凝器的规格变化中拯救出来。我们还拥有一个完整的电缆管理系统已经订好并处于发货途中。但是突然间,有一家厂商(目前它应该依然默默无闻吧)收手不干了,宣称出现了资源问题。再次,就在我们还无法马上找到另一家可替代的供应商时,Phil Rapoza及其富有活力的团队力挽狂澜,为我们的房间定制了电梯。

  项目问题产生的根源可能不同。但是在一个发展步伐如此之快的行业里,公司极有可能在短短的一个周末就停业,改行或者被收购,留下它们的客户收拾残局,而订单也会消失不见。不要依靠订单和运输,因为这些都会出现差错。预先对不可预料的事情做好计划,这样,你可以并且能够在你的项目日程表中为不可预料的延迟留出周旋的时间。

  经验教训5:制作一张转移清单并再三检查

  最后,搬迁的时间到了。为了使我们的转移更加轻松简单,我们采用了Silverback的转移解决方案,这是来自加利福尼亚Walnut Creek的全套装置,该解决方案专门用于帮助公司执行数据中心转移和扩建的。一个普通的IT员工可能要花费几天时间来将机柜集中放在一起,增加层架及其它一些附属产品,然后将服务器滑到新的轨道上,最后进行端对端的测试。Silverback通过这些任务来及时地推动进度。有时候,一天之内需要安装30或40个完整的服务器机柜。(在我们项目中,在几小时之内就要安装10个机柜,可以查看:推销我的数据中心:Silverback的转移解决方案。)

  但是,虽然Silverback的现场代表乐意这么做,我们的计划却很脆弱。尽管我们需要花几个月的时间做准备工作,但是我们对此感到自满,而且简单的认为某些事情能够如我们所愿。然而,Murphy公司轻松地证明了我们是错的。

  使用APC的数据中心计划软件,我们创建了我们新的物理架构的必要蓝图。但是我们没有去实现这个蓝图,而是放弃了这个蓝图,并且认为自动创建的平面计划图已经足以满足我们的需求。与Silverback和Rackwise代表之间的交流消除了我们那中自以为是的想法,让我们重新开始实践蓝图,填补一些重要的不足和差距。

  虽然APC的机柜计划为我们提供了一个良好的开端,但是在设计的时候他们并没有考虑定量化单项基础设施的价值,而是使用来自厂商数据库的参考重量来提供一个大概的数据。因此,如APC为Dell PowerEdge 1650提供的标准重量反映出其上可能配置两个硬盘驱动器,而实际上我们的硬盘驱动器可能是4个。虽然对于一台服务器来说这个差别不是很大,但是当你的服务器数量以每个机柜几打的速度增加时,你将面临800磅重量的限制,实际的重量就会变得很重要。我们被迫做出决定,对几个机柜进行重新配置。

  第二个重要的疏忽就是没有收集到关于要转移的设备完整的技术文档。由于HIG 319数据中心是为大量的SOEST部门提供设备代管服务,因此,我们需要重新安放机柜,重新布线并且重新部署校园内部的各个系统。要详细的记录管理员的密码,因为所有这些密码最后要重新放回到新系统上。

  对,我们不仅缺乏某些设备配置方法的详细细节,我们甚至没有收集另一座大厦转移过来的6台服务器的管理员密码。这意味着,我们无法对这6台服务器进行测试,除非找到它们的研究管理员。就像大多数的服务器转移一样,我们的服务器转移也是在空闲时间进行的,因此,在接下来的日子里,由于没有密码,我们只能将计划中最后的设备测试部分放到生产的时间段。

  转移期间通常不允许有太多的错误或犹豫不决。在转移之前,你应该列好一张有力的清单,列出详细的细节及每一步的操作,这个清单会从头到尾指导每个人的工作。我们建议,所有的团队成员应该留意并关注细枝末节及特殊情况,及时地将这些细节汇报给团队领导,从而在厂商被淘汰之前创建一个有力的清单。不要让你的解决方案提供商留下没有完成的作业。如果没有他们的帮助,项目会变得更加难以完成。

  最后,如果想要你的项目能够成功完成,那么项目领导就不能期望每一个人都能成为朋友。要用强硬的手段了领导你的团队及厂商,举办一个完美的宴会来掩饰任何可怕的自私行为。要确保留出简短的会议时间来探讨什么是正确的以及什么是错误的。否则将来某一天,你可能不得不重新开始探讨。


第三十四届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。