首页 > 方案案例 > 正文

山东农行吃“螃蟹”

2008-08-05 09:44:59  来源:信息方略

摘要:2001年11月10~16日,在美国克科罗拉多州丹佛市召开的“超级计算2001”会议上,中国农业银行山东省分行(山东农行)数据中心系统被评为全球最大的500个商用计算机系统中的第150名,该行
关键词: 金融 山东农业银行

    2001年11月10~16日,在美国克科罗拉多州丹佛市召开的“超级计算2001”会议上,中国农业银行山东省分行(山东农行)数据中心系统被评为全球最大的500个商用计算机系统中的第150名,该行采用的HP公司超腾主机省域数据中心也被认为是亚洲最大的商用Unix系统。山东农行的成功有力地证明了Unix平台可以胜任数据大集中的要求!

   这是一个值得玩味的案例,其可玩味之处在于:当银行业几乎都是在“集中就是Mainframe”这种思维方式下进行信息化的时候,山东农行对Unix系统的尝试为这个行业提供了一个可行的参照!

    案例故事

    2000年5月,中国农业银行(简称为农行)在安徽省召开会议,部署推广“新一代”综合业务应用系统(简称“新一代”)工作。山东农行副行长杨赛光参加了这次会议,并如愿以偿地使山东农行成为第一批推广行。于是,山东农行酝酿多时的数据中心整合(即数据大集中)和“新一代”推广部署紧锣密鼓地开始了。

    “新一代”系统是农行1997年开发成功的,并于1998年在宁夏推广,该系统包含综合柜员制等目前国际银行业最先进的管理手段,所以下面的省行都争着上“新一代”。

    起初,山东农行的想法只是推好“新一代”,并没有急着考虑数据集中,可是到了2000年下半年,总行一声令下,计划也就随之变了。农行决定,地方农行在推广新系统的同时,要加快省域数据中心的建设步伐。

    山东是农行的业务大省,到去年年底,该行各项存款达到1080亿元,各项贷款900亿元,在全国农行排名三四位; 个人储蓄业务达到760亿元,有将近700万储户。由于业务量巨大,仅推行“新一代”山东农行就已经感到压力很大,再来一个数据集中,难度可想而知。 此外,山东农行还有自身的特殊情况。两年前,山东农行实现了两个联网: 以市行为分中心,连接所有营业网点; 2000年初实现了全省17个分中心的联网,并利用IBM MQ Series作为中间件在省行建了一个交换中心,实现了全省范围内所有储蓄业务的通存通兑,在当时被媒体称为“中国金融界第一大省网”。 杨赛光说: “如果没有实现联网,推广‘新一代’和数据中心的难度就小得多,因为不受任何时间的限制。”在推广“新一代”之前,山东农行每天跨市的通存通兑业务在5000笔左右,金额在几千万元以上,客户对这个网越来越认可,而要推广“新一代”、建数据中心必须把这个网停下来。

    8个月精挑细选

    在山东农行决定上两个系统之后,迫在眉睫的事情是决定系统的主机。在国内,一提到金融数据集中,就会想到IBM的Mainframe大型机,因为几乎所有国内商业银行的主机都采用了IBM的产品。

    然而山东农行却另有苦衷。在该行全省的16个分中心里,用IBM设备的只有4家,其余的12个分行和省行交换中心都采用了惠普Unix系统。开始,山东农行也把目光投向了IBM S/390,但山东农行总工程师宋传杰认为,390属于Mainframe系列,如果采用这个平台,则需要一批Mainframe系统领域的资深专家,但山东农行目前缺乏这种人力资源,选择IBM是否合适?另外,“新一代”的第一个版本是在Unix平台上开发的,宋传杰认为,从一种Unix系统到另一种Unix系统的转移都很困难,要从Unix平台过渡到Mainframe上面,会更加麻烦。

    山东农行决定先试一试Unix平台。但是,用Unix平台进行数据集中还没有先例,这样做无异于第一个“吃螃蟹”。 由于许多专家认为“数据中心整合只能使用Mainframe”是金科玉律,因此希望结合两种平台,实现“Mainframe强大的数据吞吐能力、高可靠性”与“Unix的灵活、低成本和知识资产”的优势互补。与此同时,专家们也悄悄地准备试一试Unix平台,毕竟在全球,Unix平台已经在一些金融机构中承担了数据集中的关键业务。

    没有不透风的墙,这个想法一传出去,很快就遭到了同行的“耻笑”,像山东农行这么大的业务量,要进行数据集中,几乎没有人相信Unix平台能够胜任。 在随后几个月时间内,宋传杰领导一个小组,带着“新一代”程序到不同的平台上做测试。他们一条腿踩在IBM S/390 Mainframe上另一条腿踩在Unix上,以验证Unix平台的可行性。 作为Unix平台的代表厂商,惠普公司自然成为考察的首选目标,惠普超腾服务器的推出,使很多人看到了在大机上除了IBM,还有另外一种选择的希望。后来,宋传杰与同事们到惠普的日本测试中心做Benchmark测试,测试的结果让宋传杰很满意。

    山东农行确定在主机的选择上就看谁的性价比高。宋传杰称,如果采用IBM的Mainframe系统,需要花1600万美元,而惠普的产品只需500万美元,结果自然就是惠普了。 “商业银行的目的就是赚钱,所以我们必须考虑成本!”杨赛光在接受记者采访时表示。

    其实,宋传杰并非刻意要采用开放式系统,他认为,“目前,从应用的角度看,没有真正意义上的封闭式系统,也没有真正意义上的开放式系统。IBM的S/390是支持Linux最好的机器,而惠普的机器虽然是开放式系统,但把惠普机器上的程序拿到Sun的机器上,同样跑不动,尽管它们都是Unix平台。所以,系统的开放与封闭是相对的。”

    宋说: “20世纪90年代初期,那么多人都认为Mainframe是恐龙,一定会被Client/Server系统消灭时,我坚信Mainframe一定厚积薄发。我本人有超过15年的Mainframe工作、技术、管理经验,对Mainframe非常有感情。我的第一意识是Mainframe。但是,当Mainframe和Unix系统都能胜任之时,你需要认真对待投入产出比(即ROI),你需要考虑运行成本、人力资源成本的差异,你需要认真考虑如何才能保护好企业或组织内部的知识资产以及知识资产积累或舍弃的代价。    ” 在宋看来,不论是Mainframe还是Unix,都是一个或一堆Box,如何赋予它们生命才是最重要的。能不能在这个Box上增值,让业务在上面跑起来才是关键。宋认为,投资少只是一个方面,更重要的是让系统快速部署下去,对于山东农行来说,Unix平台显然更符合这个要求!

    农行在选择系统平台的时候,并不是以系统的开放或封闭性为标准,而是重点考虑企业内部信息技术和人力资源的分布以及知识财产的积累与投入、已有资源的继承和保护。总之,满足需求的系统平台就是最好的选择。

    20个月紧锣密鼓

    如果从1999年年底开始算起,到2001年8月4日召开全省“新一代”动员大会,山东农行花在系统准备的时间足足有20个月之久。 

    在寻找主机方案的同时,其他各项准备工作都已经全面展开。首先做培训,山东农行前前后后做了两次大规模的培训,每次参加培训的人员都在1万以上。1999年底,山东农行针对“新一代”在宁夏推广的版本进行培训,到了2001年4月,总行“新一代”的版本在山东开始做版本优化,花了两个月的时间,新的版本与宁夏使用的版本相比,增加了一卡通等新的功能,不得不再次培训。

    接下来是账务准备。这个任务同样艰巨,从2000年5月份开始到系统正式推广使用,山东农行在全省进行了三次财务检查。这是一项范围大且细致的工作。杨赛光说,全省3400多个网点,没有一个网点敢说自己账账相符,有的网点问题很多。另外,农行以前有几万个代办单,这些老系统遗留的问题不解决,到了新系统中就更难办。

    第三方面是设备准备。包括省行中心的设备准备和基层网点的设备准备。省行中心的设备主要是主机的选择,但是工作量最大的还是营业网点的客户终端、主机、打印机和监控系统等设备的准备。

    第四是人员的准备。实行综合柜员制以后,要求柜员不但可以办理储蓄业务,还可以办理会计业务、联行业务等等,以前每个人只需负责一块,如办储蓄的不办联行业务,所以要通过大量的培训以获得大量符合要求的人员。

    在整个组织推广过程中,山东农行做了一些详细的方案(如培训),每一个市分行的切换都单独有一个方案。杨赛光说: “由于我们的准备工作考虑得比较周到和全面,所以整个推广工作也能比较顺利地进行。”

    30分钟惊心动魄

    山东农行新系统的切换从莱芜开始。因为莱芜营业网点一共只有39个,是山东农行业务量最小的一个行,选择它风险相对小一些。由于这次切换得到了总行的全力支持,因此初战告捷,2001年7月1日,莱芜正式切换成功,给整个系统切换提供了宝贵的经验。

    也许是求胜心切,也许是形势所迫,山东农行很快把下一个目标放在了至关重要的济南分行。杨赛光说,这也是逼上梁山,原计划在10月中旬进行济南分行的切换,可是已经等不及了。由于业务的发展很快,济南分行的设备死机的现象较多,网点已怨声载道。在这种情况下,山东农行准备从济南开刀。杨赛光说,虽然风险相对大一点,但是只要拿下济南,其他的地方就可以畅通无阻了。

    9月10日,山东农行做出了切换济南系统的决定,时间定在9月22日晚,23日开门营业。

    22日系统完成切换,当日,“险情”就发生了!早上一开门,全市很多网点都出现不同程度的异常,全市很多的网点都采用新系统、新账号,客户输入的密码却总是验证失败。客户着急,前台柜员紧张。 此时,最着急的还是宋传杰。坐镇指挥中心的他听到电话铃声响成一片,十几部热线电话都是告急的消息,省行的领导们都在机房外边。济南分行的行长也来了,脸色泛白。通常9月以后的几个月是银行的旺季,业务量很大,如果切换失败或者处理速度没有明显改善,报纸一宣传,客户还不都跑了。他焦急地问宋传杰:“老兄,怎么办?”

    在投入运行之前,山东农行已经做了无数次测试,问题出现得莫名其妙。急归急,但宋传杰对于系统从来都没有怀疑过。他立即打电话询问莱芜,莱芜答复一切正常。宋传杰想,肯定是有些关键的、与济南有关的步骤给漏掉了。

    机房内总行、省行的技术人员们紧张但有条不紊地检查问题所在。空气几乎凝固了。20多分钟之后,在上百万代码和几十万系统运行信息中,Bug终于被抓住了!问题出在涉及客户信息、资金安全的数据加密启用开关上,由于工作人员高度紧张,在投产之前的参数最后确认中,把on当成了off。庞大的系统“怪兽”发出了顺利运行的信号,成功了!机房的空气立即欢腾起来。所有的人都松了一口气。虽然整个过程只有30多分钟,但这30分钟每个人都经历了最艰难的时刻!宋传杰擦着汗幽默地说了一句:“这才叫刺激!”

    事后宋透露,实际上这还是操作流程有问题,因为原计划切换过程中停业一天一夜,以便有充裕的时间来解决问题,而且这也是在人民银行允许的时间范围之内。但是该行最终还是决定只用半天的时间来完成切换。这是个教训!

    在之后的日子里,虽然陆续也有问题出现过,但一切尽在工程师们的掌握之中。因为“新一代”还从来没有在像山东农行这么大的交易量中运行过,而软件都有处理瓶颈,当系统切换的时候,每切换一部分,业务量就增大一截,一旦大到出现瓶颈的时候,就会产生问题,而这些问题在模拟测试中是没有办法测出来的,因为真实环境中业务量是随机的,这时候只能是发现一个解决一个。

    解决了济南的问题,一块大石头终于落了地。切换势如破竹,5天一个行,到最后的日照和枣庄两个行一晚上就切换成功,比原定的时间提前了一个月。


 
    技术分析 主机处理能力需求估算

    目前广为使用的衡量主机系统联机事务处理能力的指标是TPC-C。按照山东省农行对核心业务系统的规划,在未来3~5年内,系统的日均处理能力将达到300万笔,考虑峰值因素,系统的处理能力应达到每分钟处理交易2万笔以上。同时即使在满负荷运行的情况下,系统也应保证70%的主机CPU处理余量,用于系统、数据库、中间件、工具软件、监控软件或其他应用系统的使用,同时还应考虑新业务品种的开发和新业务的应用。因此,对应计算的标准TPC估值为:3000000×5/(120×70%)=178600

    惠普超腾服务器Superdome在配置48颗PA 8600CPU和48GB内存的情况下,应用Sybase数据库,其在线事务处理(OLTP)的性能可达25.3万标准TPC-C。在本项目中,惠普配置了2台Superdome,通过HP MC/ServiceGard构成双机集群,每台Superdome配置48颗CPU、96GB内存,其OLTP性能接近250000TPM。

    层次化的功能处理方式

    针对山东农行目前的现状,惠普在山东农行数据中心采取了大集中的方式。在功能上包括数据访问层和应用服务层,同时采用集中式数据管理和分布式应用管理两种方法构建数据中心。

    在应用服务层,采用可堆叠的主机构成的集群系统以实现业务提出的不断升级的扩展能力,同时做到按功能划分的应用系统,例如图示中的核心银行系统、网上银行系统等分别位于不同的应用服务器上。在数据访问层,采用冗余主机构成集群系统以实现互为热备份和不停机作业;存储系统由大容量智能存储设备构成,为数据访、存提供高带宽的强有力的支持,同时还可以实现数据的快速备份和远程数据备份容灾,并为下一步容灾系统的建立奠定基础; 磁带库提供数据的海量存储和快速备份。

    三层客户/服务器体系结构

    数据中心采用高速局域网如千兆以太网互联,以保证数据中心连接的畅通和快速交互。另建立一个集成化的网络和系统管理中心,以实现中心的智能化和自动化管理。在大集中数据中心的物理结构上也是采用三层结构,以满足企业级系统需要的三层客户/服务器体系结构(如右图所示)。这种大集中数据中心结构使得各层功能和数据完全独立,适合于大规模计算和变化多端的环境。

    其中,第一层为前端中心,提供通信和操作界面所需的功能; 第二层是数据中心,即包括网关服务器和应用服务器,前者主要完成网络网关服务和数据库网关服务,后者为典型的应用服务器,响应前端交易请求和访问第三层的数据库服务器,以完成业务的逻辑处理;第三层为数据库服务器和数据存储设备,主要运行数据库管理系统及与业务相关的数据访问和存储过程等。

    不再是Mainframe的天下?

    山东农行吃螃蟹的案例,无疑为Unix系统在大型的数据集中等应用中竖起了一面旗帜。记者了解到,目前江西农行、陕西农行、湖南农行、安徽农行等银行都将采用Unix系统进行数据集中。中国惠普金融事业部总经理吴亚西对记者说,山东农行的成功有力地证明了Unix平台能够稳定、安全地支持金融数据大集中,而在价格方面,Mainframe系统是Unix系统的3~4倍。这种对比不禁让人怀疑,Mainframe一统天下是否现实?

    一些数据统计可以支持这种观点。几年前,银行要求集中处理的能力每秒达到500笔交易,每天就有上千万笔,那时只有IBM的Mainframe大型机有这个能力,而且客户对它的安全性也比较认同。但是经过几年的发展,Unix平台已经取得了长足的进步:在安全方面,世界上已经有电信计费、证交所等关键领域采用了Unix平台,其安全级别已经达到了B2;从处理能力来讲,惠普超腾服务器每秒钟的处理峰值能力为1500笔,一天可处理5000万笔交易,而目前工行一天的交易量也只有2000万笔。

    但很多人可能依然对Unix持怀疑态度。他们或许会问,像山东农行这样业务发展如此迅速的银行,几年以后,Unix平台还能承受得了吗?山东农行是否只是贪图便宜?对此,宋传杰的看法是,不管是用Mainframe 还是Unix,3年以后,系统肯定是要升级的。如果业务需求真有如此之大的话,肯定得用Mainframe,可是,目前在中国金融界有那么大的需要吗?或许中国的银行10年之后才可能需要那么大的处理能力,但是,又有谁知道10年之后的Unix是什么样子呢?从过去10年的发展来看,Unix不断把Mainframe上一些好的东西吸收进来,比如对硬件资源的分区,把一台机器分割为几台来使用,过去这是Mainframe的专项,但现在,HP、IBM、Compaq和Sun的Unix系统上都可以做了。从中我们可以感觉到,Mainframe和Unix都在向前发展,但Unix的步伐整体上要略快于Mainframe。

    这些或许可以为标题中的问题提供一些答案,但抛开这些性能方面的比较不谈,单从用户的角度看,相信谁都希望自己能多一种选择,有竞争总是好事情。


第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。