首页 > 方案案例 > 正文

探寻高校HPC的生命力

2009-10-20 09:16:47  来源:计算机世界报

摘要:进入二十一世纪以来,国内高校承担的科研任务越来越多,对高效处理复杂运算的需求越来越强,过去只用于少数科研机构的高性能计算机,也开始成为众多院校必备的“基础设施”。
关键词: 教育信息化 高校HP

    高等教育在中国一向备受关注,改革开放后飞速发展的经济对于大量高素质人才与日剧增的渴求,更是牵动了政府的教育投入随GDP的增长而不断递加。来自政府和社会的倾情投入,使得国内各类教育机构的教学及科研水平发生了日新月异的变化,其中最引人瞩目的一点,就是它们在引入和应用先进信息技术方面总能快人一步。

    35万亿次成就No.1

    在七月一个异常闷热的下午,记者在南京大学鼓楼校区见到了周会群。周会群是南京大学地球科学与工程学院的教授,他也是一位是推动高性能计算应用的“热心人”。而正是在南京大学的支持和众多热心人的推动下,南京大学高性能计算中心的建设也正在火热地进行中。

    周会群教授的办公室位于南大地球科学实验室,实验室楼下的金陵苑曾经是南京大学前身金陵大学的旧址,一批近代的古建筑围绕在金陵苑周围。金陵苑中还矗立着李四光、竺可桢两位科学家的雕像。两位大师的雕像,似乎在指引着南大高性能计算应用的方向。

    周会群教授告诉记者,南京大学作为国内知名的综合大学,不管是在传统的气象、地质等科研领域,还是新兴的生命科学、材料科学领域,一直都很注重理论研究。“大量的理论研究,伴随着很多复杂的理论模型,就会引出大量高度非线性的问题,要对这些问题进行精确的研究,自然就对计算能力提出了很高的要求。但是在过去,由于缺乏相应的计算能力,为了某个项目,科研人员甚至要跑到全国各地去寻找可用计算设备。”

    有了高性能计算平台,不光是科研人员不用再跑来跑去地浪费时间和精力,而且,在周会群看来,高性能计算设备计算能力的不断提高,更是促进了科学研究的领域和手段不断向前发展。

    “解决复杂的科学问题,往往需要依赖于理论和试验。即通过理论科学来提出关于自然现象的假说,再归纳总结出物理模型和数学模型。而实验科学则验证现成的理论假说,提供新的实验设施,修正理论。”周会群教授说,随着计算机技术的不断进步,现在,研究人员完全有条件利用计算机来进行实验室里面不可能复现的一些实验。

    “比如在地球科学领域,我们是‘上天有路,入地无门’,”周会群表示,“探测地球内部非常困难,即便是打超深钻井,其深度还不及大陆地壳的三分之一,地球深部物质无法用直接观察和测试来确定。因为地球内部是超高温、超高压极端条件,而且地球内部具有复杂的物质成分、结构与性质,过去多数地球规模的,以及地球内部的现象都无法用实验来复现; 但是伴随着高性能计算机的兴起,给地球科学的部分研究领域带来了一个革命性的契机。特别是近年来CPU性能的大幅度提升,使得我们有可能通过基于量子力学理论的计算模拟,从物质的微观性质做起,逐步了解地下的这些物质在高温、高压状况下究竟会产生什么样的变化。以往,我们对于地球内部结构成分的认识,很大一部分是通过地震波分析得到的。现在我们完全可以更多地依赖计算,通过虚拟的实验来了解地球内部的结构和成分。”

    周会群教授坦言,在国外学习、研究期间,自己曾经尝过高性能计算对科研工作带来的“甜头”。所以在回国之后,他就成为了推动南京大学高性能计算的“热心人”。从2004年开始,他就和另外几位“热心”的南大老师一起,积极地开展南京大学高性能计算中心的规划、设计、选型和建设工作。

    2005年开始,他们就开始进行高性能计算中心的设计、调研、选型工作。

    经过反复的测试,南京大学最终选择了英特尔至强5500处理器作为自己高性能计算中心的“心”。因为在测试中他们发现,在至强5500平台上,相当多的日常使用的应用软件,运行性能比原来的方案能够获得大幅度提升。据了解,南京大学高性能计算中心正在紧张地调试,预计在2009年年底前能投入使用,建成之后理论计算能力达到35万亿次每秒,有望成为目前中国高校高性能计算设施的No.1。

    不做一锤子买卖

    能像南京大学一样,一次性投入大量资金建设高性能计算中心的高校毕竟是少数。高性能计算机动辄几百万元人民币的投入,对于任何一所高校而言,都是一笔不小的开销。而且这些计算机和普通的教学、科研设备大不相同,不但属于一次性投入巨大的高科技产品,而且背后还有高昂的运营成本,因此如何让它们能够满足多样化的应用需求,持续地发挥更大的作用,保持长期的“生命力”,是这些高校必须思考的问题。

    在采访中,来自中原地区一所大学高性能计算的负责人告诉记者,他所在的学校虽然在2005年就建设了高性能计算中心,但是几年来应用情况不尽人意,都是一些老师私下在利用中心的高性能计算机开展科研、教学,没有形成良性的应用局面,投资几百万元购买的高性能计算机成了“一锤子买卖”,沦为了“摆设”。

    如何才能让高昂的投资不沦为“一锤子买卖”,高校HPC的生命力又源于哪里呢?

    云南大学高性能计算中心是在2005年9月正式投入运行的,据中心负责人张学杰老师介绍,云南大学高性能计算中心的建设目标是实现学校内多种成分的计算资源的有效聚合和充分共享,为云南大学的各学科提供高性能计算服务,开展高性能计算机技术研究,逐步形成了资源共享、多学科交叉和创新研究的平台。

    在张学杰看来,“交叉的HPC才能具有生命力”。所谓的“交叉”,不但是应用学科的交叉,还包括人才的交叉、资源的交叉。云南大学就和中科院上海药物研究所在HPC应用于药物研究方面开展了合作,同时云南大学还是上海超算中心的一个分中心,在允许的情况下共享上海超算中心的某些软件。“只有尽可能地进行资源共享、管理经验共享,取长补短,充分发挥各自的优势,才能让系统发挥最大的效益。”

    张学杰现在还在准备在云南大学高性能计算中心里面开展研究生创新人才培养基地的建设,针对不同学院参与高性能计算应用的骨干人员,组织专门教师团队,实行导师小组指导制,以多学科合作、跨学科培养研究生的有效机制,通过统一的管理、统一的公共课模块、统一的培养环境,来打造更符合高性能计算这个领域发展规律的专门人才。

    另外一方面,张学杰对于高性能计算中心管理团队的人员也希望能够实现“交叉”。“高性能计算是一个交叉学科,如果单纯是应用专业领域的人来管理,他可能会对某一个软件熟悉,应用得很好,但是对整个中心怎么样有机地为不同学科服务,怎么样进行维护,怎么样优化它,可能都会存在问题。所以理想化的高性能计算中心管理团队和运行团队,是一个由多学科人员组成的团队,既要对并行计算进行整体的规划,又要考虑到各个学科的差异,想办法把各个学科的人整合起来发挥作用。”张学杰说。

    周会群教授也透露,未来南京大学高性能计算中心具体的管理人员主要由来自天文系和其他不同学科的老师组成,这样做就是希望高性能计算中心的管理与应用不脱节。

    鲁永泉博士从事多年并行计算软件的研发工作,现在是中国传媒大学高性能计算中心的主任,同时还是北京蓝海彤翔科技有限公司的董事长兼CEO,带领自己的团队为校内外的用户提供与高性能计算技术相关的IT咨询、并行软件的定制与开发以及整体技术解决方案等各种服务。

    在鲁永泉博士看来,要让高性能计算在高校中有良性发展,首先是要与应用紧密结合,否则性能再好的计算机也是“废物 ”; 其次是对运营团队在技术层面上要有一定要求,否则很难把高性能计算的平台维护好。针对高性能计算中经常遇到的集群管理问题,鲁永泉博士和他的团队就自主开发了一套专门的优化管理系统,凭借这个产品,他们还成为了戴尔官方系统服务提供商; 第三就是要以“放水养鱼”的心态营造高性能计算应用氛围。通过各种主动的培训或开设课程,甚至无偿地提供试用,让原本对高性能计算不了解的人,了解高性能计算,成为中心的稳定用户。“如同饭馆讲‘人气’一样,高校HPC也要聚集‘人气’才能发展。”鲁永泉博士说。

    2009年4月15日,哈工大高性能计算中心开始试运行,中心负责人梁军教授告诉记者,作为校级的公共平台主要为全校工程与科学计算提供高性能计算服务,因此受到全校广大师生的关注。“作为一所国内知名的研究型大学,校内的学科方向众多,需要多种类型的应用程序在平台上运行,因此,在硬件选择上充分考虑不同应用软件的运行性能,构建了共享内存和分布式内存集群系统的混合框架体系。目前已经完成机房改造、软硬件设施的安装和调试,正处在系统整合和调优阶段。”

    哈工大高性能计算中心为了更好地为师生提供高性能计算服务,在前期就开展了大量“聚集人气”的工作。“在前期调研过程中,我们针对学校不同院系的需求,进行了高性能计算相关软件的选型工作,最终筛选并购买了了十几种软件。针对这些软件我们邀请了专家专门来培训,学生反映强烈,非常欢迎,几十人的教室涌进来上百人来听培训内容。”梁军说,在开展软件培训的同时,他们正在和合作的厂商紧密配合,对系统进行调试,对各项参数不断调整,目标就是将软、硬件的设备融合在一起,以便发挥它们的最高效率。

    ChinaGrid二次催化

    高性能计算机走入中国高校,可以说是高性能计算技术走向商业化和普及化这一全球性趋势的作用结果。在这个过程中ChinaGrid(中国教育科研网格)发挥了重要的催化作用。

    ChinaGrid由教育部于2002年提出、并获得了科技部大力支持的“十五”211工程公共服务体系建设的重大专项,其目标就是要将网格计算与高性能计算技术融合起来,为国内高校的教学与科研工作提供先进的技术服务手段。它的具体实施策略就是要通过网格技术,把分布在中国国家教育科研网(CERNET)上和各地高校的海量异构计算资源和信息资源,例如各种高性能计算系统、数据服务器、大型信息检索存储系统以及各类其他专用设备连接起来,实现教育网资源的有效聚合和广泛共享,形成一个高水平低成本的计算服务平台,将高性能计算送到教育与科研网用户的桌面上,成为国家科研教学服务的大平台。到2005年底时,其一期(或称第一阶段)建设任务完成,连通了国内13个省市的20所着名高校,其中12所高校作为最初参建者,都建立了基于高性能计算系统的ChinaGrid主节点。它们还协力开发了核心的ChinaGrid公共支撑平台软件(CGSP),并在其上部署了图像处理网格、生物信息学网格、大学课程在线网格、海量信息处理网格和计算流体力学网格等五类面向教育、科研应用的专业网格及开发环境。

    ChinaGrid项目负责人、华中科技大学金海教授向记者表示,ChinaGrid二期将会吸取第一期的教训,针对一期计算能力有限,以及“松散”联盟关系的问题,重点解决一期在实际项目执行、资源调度管理过程中存在的瓶颈,以保证ChinaGrid可以持续发展。因此二期将会加大对基础设施的建设,形成六大高性能计算中心。

    据了解,六大中心将会获得总计2000万元人民币的投资,每个中心最终达到30万亿次左右的计算能力。目前已经有43所高校加入到ChianGrid二期中,六大中心将通过这些学校的“竞标”,最终决定落户在哪些高校。

    在ChinaGrid 2009年会上,英特尔(中国)有限公司亚太客户响应团队技术经理何万青也表示,英特尔针对HPC在高校中不同的研究方向和应用模式,帮助高校用户理清它们的应用特点,即针对它们的HPC应用进行特性分析。“因为不同应用所体现出来的特性不一样,有的是内存敏感型,有的是主频敏感,有的是I/O敏感,所以我们要从客户的具体应用出发来重点看几个指标,即CPU、内存、I/O、网络的状态与负载,从而总结出其应用的特性,最终帮助高校客户进行正确的选择”。

    另据ChinaGrid专家组副组长、清华大学郑纬民教授透露,在形成六大高性能计算中心的同时,ChinaGrid二期还将重点发展八大应用学科,其中包括力学、材料、能源、气侯环境、计算机、媒体计算、法律、网络行为。

    “之所以提出八大重点学科,我们就是要把所有的教学资源、科研资源、软硬件资源,甚至一些测试工作,全部放在这个大的平台上面,六大网络中心还兼顾数据中心的功能,这样以后相关学科的学生可以通过这个平台看到最新的东西。这样既把网络的特征结合在里面,同时又把计算的特征结合在里面。”金海说。

    张学杰告诉记者,云南大学高性能计算中心正在积极地申请ChinaGrid二期气候环境重点应用学科。“云南大学大气研究是针对低纬高海拔的气候研究,具有一定的特色,而且在研究过程中我们更强调的是气候和环境、和其他地方经济发展紧密的关系,这中间自然要利用到高性能计算。例如我们现在在做的亚洲季风的活动规律变化的研究,涉及到整个大湄公河流域环境,特别是旱涝灾害影响的评估,其中涉及到海洋环流因素,以及人为活动的因素,就需要大量的模拟,而且还是一个高分辨率的计算模拟,简单的计算可能都需要上百个小时。所以没有高性能的计算设备,这样的研究是做不了的。”

    采访手记     高校HPC用户普遍“缺房”

    高校中青年教师的住房问题,一直是个老大难问题。在今年两会上,就有人大代表提出了“国家应加快解决青年教师住房问题”的倡议。

    在记者采访中,高校HPC的“房子问题”也是几位采访对象都曾经面临或正在面临的问题。

    南京大学因为没有专门的机房用地,高性能计算中心被迫晚建了将近三年。中国传媒大学的高性能计算中心的机房,曾经是校长的专用会议室,实在因为找不到合适的地方,校领导为了支持高性能计算的应用,才“忍痛割爱”。

    即使是“抢占”了校长的会议室,鲁永泉博士在使用中也感到并不是十分理想。在请工作人员更换高性能计算机UPS电池的时候,他都得事先和工作人员说,不要同时将电池搬进机房,而是搬走一块再搬进一块,生怕房子的结构承受不了那么多电池和人员的重量。

    高校HPC用户的房子问题,其实并不是表面上“房源”紧张的问题,背后更多的是HPC相关的配套基础设施建设问题。梁军就曾经向记者介绍,哈工大的高性能计算中心在设计规划中曾经几易其址,最终“抢”了MBA的教室,原因就是“出于建筑承重、消防、隔音等的考虑”。

    而目前HPC相关基础设施建设的一个核心问题就是“绿色”。不管是南京大学,还是中国传媒大学,这些HPC用户都盼望自己的高性能计算中心能提供的计算性能越强越好,但同时又不得不考虑与性能同步增长的电能消耗问题。毕竟,节能减排是利国利民的国策,而且从自身成本核算的角度来看,即使一个由数十台服务器组成的集群中每台服务器的功耗只下降数瓦,那么一年下来节省出的电费恐怕也是一个比较可观的数字,因此在提升系统性能的同时尽量节能才是“房子问题”的核心。

    周会群教授表示,高性能计算中心与IDC有着完全不同的热环境,因为高性能计算服务器CPU的工作负荷常常达到 100%,而企业数据中心的机器负荷,按照国外的统计数字,常常在15%~20%。因此在机房建设的热环境设计上是不一样的。他们在规划南京大学高性能计算中心的时候,就有一个原则,就是要在“单位体积内,能提供更高的计算能力”。因此,除了对CPU这些硬件的选择上精挑细选外,在机房的建设上也尽可能地做到“绿色”。

    2007年的夏天,周会群教授访问日本东京工业大学高性能计算中心时,中心负责人松岗教授指着挂在高性能计算中心的天花板上方并下垂到机柜上的塑料帘子说,这是他访问中国时受到百货商场用塑料门帘来隔断内外冷热环境的启发,用来把机房内的冷热空气分隔开,形成“冷热走道”。这样空调温度可以上调到27摄氏度左右,从而大大节能降耗。这给了周会群教授很大的启示,因此他们在设计南京大学自己的高性能计算中心的时候,就很注重对冷热空气流的控制。他本人甚至还尝试考虑过冬季采用自然冷却的方式,直接将室外冷空气引入空调过滤系统,以达到“绿色”节能的目标。


第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。