首页 > 基础设施 > 正文

绿色高性能计算:提高速度的新秘密

2008-12-03 09:12:51  来源:CIO时代网

摘要:"绿色"是今年的一个热门词汇。然而对于高性能计算来说,想要绿色并不那么容易。的确,在一个以性能为主导的市场中,其他任何因素都要为性能让道--直到数据中心电力费用单送到你的手
关键词: 服务器 绿色 高性能

    "绿色"是今年的一个热门词汇。然而对于高性能计算来说,想要绿色并不那么容易。的确,在一个以性能为主导的市场中,其他任何因素都要为性能让道--直到数据中心电力费用单送到你的手上,或者你的数据中心无法获得更多空间、能源或者冷却资源的时候。

    绿色高性能计算实际上是优化了的高性能计算。性价比往往是用于评估多个硬件解决方案的标准之一,除非你有不受限制的预算开支。虽然性能很容易测量出来,但是价格就有很大差异了。一般价格包括基本的硬件配置成本,而完全忽略了运营成本。就当前的服务器市场来看,这种分析方法是缺乏远见的。举一个例子就可以说明这个问题。

    一台普通的1U二路集群节点的能耗大约在300瓦左右。如果冷却和电力系统效率较低的话,能耗可能会增长到600瓦。因此,一个集群节点每年就需要5256千瓦时的电力。如果以每千瓦时10美元的标准计算,这个集群节点每年的能源和冷却成本大约是526美元。

    然而要是从整个集群的角度来计算的话,这个成本就相当惊人了。以通常的集群采购来举例,一个节点的成本大约为3500美元(其中包括机架和交换机等)。使用标准的四核技术,一个节点配置两个处理器和总共8个内核。以平均节点成本计算,一个普通的128节点集群(配置256个处理器和1029个内核)的成本大约是448美元。根据上面的计算,年平均能源和冷却成本就是67300美元。以三年计算的话,成本就是201900美元,占总系统成本的 45%。

    虽然成本会随着市场挑战和数据中心选址不同而上下浮动,但是上面的分析证明,数据中心三年的运作成本轻而易举地就达到了采购一个通用集群成本的40%~50%。

    因此,更准确地计算性价比还应该包括基础架构或者运营开支。忽略这些成本往往获得的是一个理想化的结果。而且,总拥有成本往往可以反映出运营成本情况,但是对于高性能计算来说,我们更倾向于选择基于性能的测量,也就是价格性能比(price-to-performance ratio)。

    绿色就是性能

    基于我们上面的分析,能源和冷却成本的降低自然会引起价格性能比的下降(价格性能比越低越好)。这个结论令人感到意外,因为绿色计算通常是与低能耗系统有关系的。就高性能计算来说,绿色并不一定意味着速度减慢,它意味着高效。下面我们就会降到高性能计算系统提高效率的多个途径以及绿色高性能计算的新方法。

    绿色服务器

    因为现在很多通用机架式服务都采用相同的处理器、内存和硬盘驱动器,所以我们在这里不一一解释了。现在很多新型处理器以及集群中都提供了新的节能特性:

    电源:如果你使用的是标准机架式服务器,那么你可以控制的一个区域就是电源。确保你使用的是功率因数校正型(Power Factor Correction,PFC)电源。一个功率因数校正超过0.8的电源是高效电源。遗憾的是,未经校正的电源的功率因数可能在0.7~0.75之间,也就是造成了资源浪费。一个好的PFC电源功率因数应该在0.95~0.99之间。过去,30%~40$的电力都被浪费掉了。更好的电源能够提高效率达 80%。

    采用时间管理

    正如上面提到的,大多数厂商都非常关注能源效率。英特尔和AMD分别采用Intel SpeedStep以及AMD Cool'n Quiet技术对他们的处理器产品进行动态频率控制。通过修改某些代码就可以实现对处理器时钟频率的动态变更。这样,当一个处理器处于空闲状态的时候就可以将其关闭。如果你在节点间使用了硬盘驱动器,那些现在有不少硬盘都自带了绿色节能模式的设定功能。

    控制上述能源节约特性最有效的方法就是使用管理器。一般来说,任务管理器掌握着每个节点的状态。我们很容易向其中编写代码,让CPU或者硬盘驱动器在空闲的时候处于低功耗模式,在运行任务的时候启动运行模式。

    另外完全关闭那些处于空闲状态的节点也可能达到节能的目的。Sun Grid Engine和SLURM都计划提供这种功能特性。这种功能对于无磁盘节点有很大用处,因为在无磁盘节点是通过网络来完成快速启动和节点分配的。通常在通电之后60秒内节点就可以准备就绪了。

    还有一个方法是使用管理器来控制物理任务的分配。这种方法是将任务分配或者迁移到温度较低一些的机房环境内。

    绿色机架

    改善机架也是"绿化"集群的有效方法之一。通常一台 1U服务器至少有10到12个风扇和一个电源。刀片系统在设计上有所变化,即在节点之间共享风扇和电源。一个容纳了1U服务器的普通机柜有42个1.7×18×26英寸的通风道,每个通风道必须为冷却服务器提供足够的空气流。通过整合风扇和电源能够节省不少能源。绿色机架一个很好的例子就是IBM的iDataPlex。除此之外,还有很小型的子机架系统提供了绿色特性,例如Supermicro Office Blade、IBM BladeCenter S系列以及Dell M系列。

    另外一个由Rackable Systems倡导的技术就是基于直流电源的服务器。在这种设计中,每个服务器和存储系统都配置了一个高效的48V直流电源,而不是标准的交流电源。每个机柜有效地将标准交流电源转化成直流电源提供给整个机架底座。如果省掉交流与直流之间的转换,能效就可以提高到92%,而且节点产生的热量也更少。

    英特尔的实验

    上面这些假设在某个时期是经过验证的,但是随着经济情况或者系统设计的变化,我们也需要重新测试这些技术理念。最近,英特尔公司决定对一个基本的技术理念进行测试,也就是,你的数据中心需要冷空气才能正常运转。当然,这听上似乎是一个无需证明的假设。

    为了测试这个理念,英特尔研究了一种能够优化数据中心能源和冷却的空气节流阀。在10个月的时间里,这个测试数据中心通过100%的空气交换来进行冷却,但是温度、湿度和空气质量都处于极限范围内,而且更重要的是,在这个期间没有发现明显的硬件故障率的增长。

    一个小小的细节起到了帮助左右。另外被设定在低湿度环境中的数据中心,每个数据中心有488台用于生产的刀片服务器。控制数据中心采用传统的冷空气冷却(空调设备),而测试数据中心采用室外空气,操作范围被设定在使用65华氏度到90华氏度之间的室外空气。如果吸入空气温度超过90华氏度就将启动空调设备来将温度控制在90华氏度以下。如果吸入空气温度低于65华氏度,排放的热废气就会被回收利用来将温度保持在65华氏度以上。这里还采用干了标准的过滤器,但是不对湿度作任何控制。测试结果显示,节能型数据中心的故障率是4.46%,控制数据中心的故障率是2.45%。需要注意的是,系统被保持在建议的98华氏度以下,而这一温度即不是测试温度,也不是服务器的温度极限。从数据中可以看到,测试数据中心内服务器的平均温度在70~80华氏度之间,而控制数据中心内服务器的平均温度被设定在68华氏度。

    这个测试的结果表明,数据中心能源节省了大约67%,一座10千瓦的数据中心潜在节约成本为287万美元。这样看来,这个假设的确值得我们进行测试,而且未来你还将更多地听到这个理念。

    绿色超级计算机500强

    那些超级计算机TOP500的追随者往往会询问这些上榜系统的能耗情况。的确,许多人希望看到基于功率的性能参数,这样系统的价格性能比中就可以增加对基础架构成本的考虑。

    所幸的是,现在我们有了专门根据MFLOPS/Watt标准来评出的Green500榜单。

    热量越少,故障越少

    注意在上面英特尔的实验中,平均温度并不比控制数据中心温度高出多少。我们知道有这样一条准则:温度每提高10摄氏度,故障率就会翻一番(英特尔的实验结果似乎也支持这条准则)。当集群规模越来越大的时候,故障率就变得尤为重要。显然对于小型集群来说,5%的故障率是可以接受的,但是大型集群却不然,因为这可能导致大量服务器需要被替换掉。因此,保持设备的冷却,设备生命周期就更长。因此,除了节省开支和降低价格性能比以外,你的系统还要能够工作更长时间。

    在过去的几年内,高性能计算变得越来越高效,但是却不"绿色"。未来,随着陈旧系统被淘汰,更新更绿的硬件和软件被采用,这种情况将有所改观。而且,当你计算价格性能比的时候,更绿色意味着我们需要的是:更快、更好、更经济。
  


第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。