【北大CIO班十周年】黄罡:数据开放共享云平台

2015-12-07 14:09:37  来源:CIO时代网

摘要:2015年11月28-29日,北大CIO班十周年年会暨首届中国行业互联网大会在北京大学与宽沟会议中心隆重举行。北京大学教授,软件研究所副所长黄罡就主题为“数据开放共享云平台”发表演讲。
关键词: 北大CIO班
  2015年11月28-29日,北大CIO班十周年年会暨首届中国行业互联网大会在北京大学与宽沟会议中心隆重举行。29日,互联网+政府分论坛在宽沟会议中心隆重举行,来自政府行业的资深专家与CIO代表们参与了此次论坛,就政府行业在新一代信息技术影响下的发展之路进行了深刻的探讨。北京大学教授,软件研究所副所长黄罡就主题为“数据开放共享云平台”发表演讲。以下为演讲实录:
\
  非常谢谢邱主任介绍!刚才杜主任讲的,尽管我不是做政务的,但是因为我们北大一直是跟很多政府,科技部打很多交道,所以今天给大家分享的是我们过去几年做研究方面的一些关于数据开放共享方面的一些成果,这些成果目前已经是最近半年已成功的产品化了。这个需求其实是两年前我和邱主任交流的,邱主任提出来的。就是说,我要做政务民生服务,你能不能把其他的,像淘宝、携程都给我集成过来。我们当时说没问题,技术上一点问题都没有。但是产品我们没做。所以后来确实发现,邱主任提的这个是非常有价值,所以最近一年多我们也有相应的人在做具体的产品化。实际上我们干的是什么事情呢?大家可以看到,大数据行动纲要出来以后,其实我们可以看,我相信各位很清楚的知道里面的时间还是非常紧张的,比如说有一个是2017年就要确定好数据分享的边界,2018年至少政务内部的几个金字工程要互通,2020年必须有很多数据要给老百姓开放了。现在的核心问题是,显然这是一个好事,那不管它是数据开放还是互联网+,但是我们来看一下,政府现在下达了这个命令以后到底它里面,就像杜主任讲的,更多的是管理问题还是一些其他的问题。从我的角度,我看的是技术问题。
 
  国家行政学院发布了一个所谓的省级政府网上政务服务能力的调查报告,其实我们不用看排名,只是大概看一下,级别做得最好的就是三千多项,所有的审计加起来目前有38310项,每一项其实都是非常大的一块数据,那么这块数据我们看如果说是按现在,因为我们是已经接触了一些政府部门在做所谓的数据的整合开放的工作,大家可以看到,现在是非常重要的一个东西,就是不动产登记。不动产登记实际上是要把以前在房产局农业部水利部的那种各种各样的地,全部归结到一起,统一发一个不动产证。所以它是一个典型的数据开放、共享和集成的东西。但是这个东西其实可以看到,(PPT)这个是某市政法委不动产登记系统是北京某公司做的,他们派了9个人到那干了4个月,什么数据都没拿出来。为什么?因为这个市政法委当地房产局就说,我所有的数据都在内网里面,我这里给你开一间办公室,一方面接了一个内网,外面的政务网也(接了一根线,但是我不能两边直接联通,怎么去把内网的数据拿出来放到你们不动产政务网系统里去,那是你自己做的事情。所以他们9个人在那,纯手工的一条一条数据导,但是十几万条数据,你说他要导到什么时候去!
 
  另外,第二条,这个是某市政法委,大家可能知道现在在做司法信息公开,那么试点是在这个政法委,他要做的事情就是要把公检法的75类业务系统的数据整合起来。但是在过去两年花了非常大的代价,差不多花了300万,做了两年,只集成了75个之中的11个。那么接下来的半年,他必须要完成余下所有系统的整合,因为这样的话他才能按期完工。所以说现在也面临着非常大的问题。这个某大型央企,他设计了一个6+1,“1”就是所谓的数据平台,希望把所有业务系统数据都上到这个平台上,都走它。最后导致平台建了,但是上面没数据。
 
  为了调动所谓的应用开放商的积极性,行,那我这个数据是不是可以一个接口80万块钱,结果也是很少人去开发这个事情。所以我们很关心的事,接触了这么多案例,我们在想,到底是不愿意开放?肯定有。还是说不敢。现在都说“不能乱说话”。还是说,更多的我们看的,是不是不会或者开放起来成本太高。我们再来看数据开放共享,实际上现在炒的很热,但是搞学术的来说,这是2004年的一张图,其实那个时候整个互联网上的数据已经超过了8个Z,只不过其中96%的数据是藏在这些项目里,比如不动产系统或者各种密码或者加密保护的那些深度系统里,那些系统爬虫是爬不到的。针对这个,我们现在来看,主流的,不管是政府、央企,现在做数据开放都是什么?都是前置机。
 
  后台的业务系统,我订一个前置机,你把你的数据按我定好的格式,定期的实时的把数据上来,后面新的系统就实时的从前置机上读数据。这个设想是非常好的,但是它中间实际效果可能就可以看到,前面的效果,要么就是数据拿不全,拿全了要么不实时甚至经常有些数据可能是一两个月才更新。那么问题是什么?我们来看一下,现在不管是手机App还是Clan sever,还是浏览器(ES架构)实际上都是三层架构。三层架构里面很关键的一点是说数据层,我们一般来说只要把数据层后台数据打开就行了,但实际上在三层结构里面数据层只是存了数据的值,比如说12345,你根本不知道它什么意思,可能上面写的XM,但是你也不知道是什么。所以在数据库里面存的只是基本的语法和值,那真正它是什么含义?是在我们业务系统开发者前面写得代码里。比如说原来这个是“姓名”,前面是“姓”后面是“名”或者是前面是“名”后面是“姓”,甚至我还要进行名字检查,不能有英文,因为都是中国人。那这些检查全都是在前面的代码里。这样意味着我们取数据的时候,你必须连这些含义都要知道,那要知道这个的话,这就出现问题了。首先是不会,为什么?因为我们要做到这一点,一定意味着不仅我要看到数据库的表和值,我还要看到你前台的这些代码。
 
  好,看到这些代码,如果说那个团队还在,还比较好。但如果不在的话,基本上就没有人能看明白这个事情了。尤其是现在有大量系统是第三方,如果是SaaS的,他不可能把他的源代码给你看。所以这就导致说,我们必须要从开发者角度完整去理解这个系统,才能把数据拿出来。还有就是不敢,为什么?因为我从你后台拿数据以后,这个数据是不是只能读,如果你要写的话那这个就麻烦了。因为所有写的正确规则都在我前面的业务系统里,你现在直接从后面插,这我肯定是受不了的。最后还有一个不愿,这个我们碰到的非常多。就是很多人他认为这个数据是我的权利,结果你现在让我把整个数据开放,对不起我受不了。所以在开放的时候,当然中间还包括开发这个系统的人你也要去协调。那就导致我们在明明只是想做一个数据开放而已,结果我不仅要跟数据的拥有者去沟通,还得跟开发系统的开发商沟通,这中间的沟通成本和风险是非常大的。基于这些我们就可以看到,整个我做下来的话,除了把数据拿出来,未来的不论是互联网+还是大数据行动,一定我们做完数据的可视化分析决策以后,做新系统,一定还会要把整个产生的决策写回原系统,如果写回的话它面临的问题实际上是更大的。所以我们做了一套什么东西呢?一套管道,可以把一个一个孤岛给打通。大家可以看一下这个ppt。
 
  因为我是搞软件的,从我们的角度看,你所有的系统都是用软件写的,只要你是用标准的软件语言写的,我就能把你的系统自动的理解。大家可以认为是记忆学习和理解。理解以后我就知道你这个系统后面,我从你前端的界面就能知道你这个系统里到底藏了些什么数据、这些数据有什么含义、它有什么相应的功能,这样的话这些东西我们都会自动的生成一组接口,然后这组接口我们就会部署到一个运行平台上,真正的客户就用自己喜欢的语言,正常的编程,编完程以后接下来,就把原来你的业务系统当成一个黑格,我会把你所有的数据和服务都可以API的方式给提取到我们这个中间的平台上,然后给你全面使用。这样整个前面提的问题就全部都没有了。因为在我这里根本不需要打开后台数据库、不需要后台管理权限、不需要看到你的源码、文档,什么都不要。我唯一要的就是,有没有人知道有一个合法的帐号可以从你前端的界面里能看到你要的数据。我想这个肯定是有的,因为如果你前端业务系统都看不到这个数据的话,实际上这个数据并不是有价值的数据,或者是原始数据。那么这样一看大家就知道,我整个就不用碰后台,所以所有的风险就全都没有了。基于这个,大家可以打开看一下我们的实例。(PPT)比如这是一套中国ХХ基地的考勤。
 
  百度上、互联网上这种服务还是说你要自己定义的API的形式,我们都可以帮你变成标准的编程接口,只需要从消费者的角度去理解这个系统,我就可以给你生成API。然后,我们现在只要是用浏览器打开的,我全都够API。只要是你用手机App能够打开的,我全能给你变成API。至于说word文档这些都没有问题,甚至连当地房产局这些命令,我们都可以。其实我们整个做下来,比如说不动产登记,我们七人天就把他所有数据全拿出来。像那个大型央企,我们五人天就可以给他上,把最复杂的OA系统所有的数据都可以上到平台上。神州数码是我们目前最大的客户,比如“智慧扬州”第一期的时候他做了两年,结果上第二期的时候要集成15个系统,就想着要做大半年,但是用我们的系统,一个人天,实际上就是6个小时,就把15个系统所有数据的接口生成以后,基本上几天内就把所有数据全都出来了。
 
  大家可以看到,我们刚刚上线6个月,为100多个业务系统生成了1000多个API。中间其实最复杂的确实省市部委和央企的信息系统,像互联网的其实非常简单。而且基于这个,可能大家也知道我们做了一套云系统,我们最大的能力就是因为我们能把任何系统的API都给拿出来,所以不管你是VM2还是IBM的PowerVM也好,你不给我API没关系,只要你有一个管理控制台,我就会把这个管理控制台的功能变成API集成到我们的云管理系统里面去。所以目前毫不夸张的说,我们是集成能力最强的云管理系统。目前已经贴牌换成了联想的ThinkCloud和方正的FounderCloud。这个已经是企业界的产品。
 
  最后我们想和大家分享的,打造一个所谓的大平台。就是说后面有各种各样的,不管是网站还是爬虫简单的浅层网络,还是App,甚至是老的Clan sever的应用,我全部可以把你的数据和服务,因为大家一定要注意,我们这里跟爬虫不一样的是说,我不仅能把数据读出来我还能写回去,按你原来的方式写回去,所以说我会把你的所有数据和服务变成API放上来,然后供你去做数据的交易和监管,可以供你去做大数据的处理还有做各种各样智慧城市行业的数据集成的方案,当然也可以做App和微信的开发,这些都是可以的。那么,基于这个,我们也相应的有一套云管理平台可以部署,所以说我们整个系统,现在我们是在阿里云上,有公有云的模式,也可以在阿里云上给你开发一组专门的虚拟机给你专有云模式,也可以部署在你的内网里面以私有云的方式给你部署,甚至包括我们还有一个超融合一体机,就是你直接连硬件带软件一起买走,装给你就行了,这些我们都有。它还有一个好处是什么?当我们把API都拿出来以后,你可以在我们上面开发你的新应用,你开发的新应用全部是基于API。其实我们的API是基于部署在一个一个容器上的,所以这就是“微服务”的概念。这样的话就使得在我们这个平台上开发出来的新的业务系统它是一个“微服务”的先进的架构,在演化性、集成性和灵活性上是非常先进的。所以我的介绍就到这里,希望我们北大的技术,希望能够为国家的互联网+政务或者是政府的大数据行动计划能够作出贡献。谢谢!

第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:黄罡

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。