黄罡：云端融合助力创新创业

2016-01-13 09:53:22 来源：CIO时代网抢沙发

2016-01-13 09:53:22 来源：CIO时代网

摘要：2016年1月10日，“第六届中国云计算应用论坛”在北京大学圆满落下帷幕，北京大学教授，北大软件研究所副所长、北京因特睿首席科学家黄罡先生在本次论坛上为大家带来了题为“云端融合助力创新创业”的主题演讲。
关键词：云计算大数据 CIO

　　2016年1月10日，“第六届中国云计算应用论坛”在北京大学圆满落下帷幕，本次论坛以“云计算时代的创业与创新”为主题，并围绕“基于云计算的创业与创新”、“云计算生态系统的打造”、“行业云平台的创业创新机会”等议题展开讨论，来自阿里云、腾讯云、京东云的重量级嘉宾都参与了本次活动，与此同时还吸引了众多传统企业CIO、互联网公司CTO以及业界专家参与此次盛会。北京大学教授，北大软件研究所副所长、北京因特睿首席科学家黄罡先生在本次论坛上为大家带来了题为“云端融合助力创新创业”的主题演讲，以下为演讲实录：

　　非常高兴有机会再次来到这个论坛，向大家汇报过去一年我们团队在云计算方面，尤其是在怎样去支撑创业创新方面一些新的想法和新的实践。我的报告分为三个部分：第一个部分，我们所有人都认为云计算为我们带来了一个非常好的创新创业的机遇，但是从技术角度我们希望仔细去回顾和反思一下，是不是今天的云计算真的让我们的创新创业有了一个大的发展机遇呢？我们发现中间的资源孤岛其实是比较严重的，并制约了我们的创新创业。其次，过去一年里，我们花费很长时间利用软件定义技术尝试打破这些孤岛，看看它在产业当中是不是真正支持创新创业呢。最后来分享一下我们大量的，基于云端融合新的理念怎样去做一些在政府互联网方面上的创新创业例子。

　　首先我们来讲什么是云计算。今天我们已经进入了新一代IT时代。到底什么是云计算？我个人对它的定位，大家可以从图中看到，其实它首先是在互联网以及以互联网为延伸的物联网和所谓的移动互联网上，产出的新的计算平台。那么这个计算平台，有移动计算、有CPS这些东西，但是它的核心，或者从互联网角度来看它的核心引擎应该是云计算。而在云计算之上就是很多很多的应用，这些都在云计算汇聚以后才形成了所谓的大量的我们无法及时去处理的数据，也就是所谓的大数据。从这个角度看，我们认为云计算就是新一代信息技术和应用的基础设施。从这个角度再来看云计算的创新创业，我们就可以对它有一些新的或者比较全面的定义了。

　　第一，不管怎么样，反正你把现有的系统只要搬到云计算上，或者说你现有系统的一个新版本或者是部分终端的新增，或者你用的一些数据和服务来自于云计算上的，我们认为这就属于云计算上的创新创业。另外一方面，是直接把一些新兴领域，比如说做基因测序都是基于云计算做的。还有很多通信，他们的基站其实底下已经都是通用的计算机，上面加上一堆虚拟化网络功能，以云计算的方式再进行处理。这是我们认为在2010年，过去五年以及到未来五年云计算创新创业的一个核心主流战场。

　　未来在2020年以后，到2030年，更多的是人机物融合，还包括人工智能，这些在下一个十年可能会是它的重点。我们这个报告看云计算的创新创业主要是关注最近五年（也就是到2020年），我们如何用云计算去升级改造现有的系统、如何在云计算上开发新应用系统期间碰见的可能的一些技术的门槛。

　　首先来看一下，云计算大家都很熟了，从2006年AWS EC2发布以来，应该说最开始的五年大家都说云计算是炒作。其实从学术看它的核心是什么？我们把过去几十年网络计算移动化，其实是超级计算的思路给改掉了。以前超级计算是说一个CPU不够，没关系，攒十个、一百个、十万个CPU，总能满足。但是那样的超级计算攒出来之后，我们很难写出一个很好的程序把这十几万个CPU都用上，所以导致超计算一直面临着不好用或者没有应用的尴尬局面。那么云计算出来以后其实彻底改变了这个思路，把CPU攒起来不是让它计算能力更强，而是使它更能应用，想用就用，不用时就可以停掉。所以说云计算1.0时代，在概念创新时代我们就发现它已经给我们的创业创新带来了很多价值，就是你不需要自己买机器了。到了2011年，由美国国家标准局给出了一个云计算的定义，说云计算是计算存储网络等软硬件资源的一个汇聚，并且以服务形式提供给用户。若从这个角度看，这个时候整个产业界就已经充分认识到云计算就是我们的新一代信息技术的未来。所以这个时候大家就开始说，到底我们在这里面有什么关键技术呢？这里面一个核心的技术一个动态就是从以前只关注资源管理、只关注所有的资源都是批处理式。那怎么让所有CPU尽可能运算起来，变成以服务的方式，强调成本、强调应用性。这时候就出现了IaaS、PaaS，以及今天津津乐道的像Docker容器技术，都是为了提高应用性并且降低成本。从创新创业层面来看进一步降低了创新创业的门槛。但是不是有了以上两个服务，云计算过了八年以后，创新创业就可以很方便的做了？不是的！

　　所谓的云计算，我画了一个云计算的资源站，见图。其实我们说除了计算存储网络这些硬件资源，它还包括操作系统、数据库、软件平台、运行值，以及上面跑得应用数据和应用本身的功能，这些都是云计算所能向大家集成和汇总的资源。但这些资源我们首先看一下数据，我们可以看到这张图，经常有人说大数据也是炒作，跟云计算一样。从学术的角度，确实是有点像。为什么？大家可以看到这张图是2004年学术界在做深层网络时画的一张图。什么是深层网络？搜索引擎爬到的网页数据，那个是遵循开放协议的，所有数据大家都可以去拿到。但是有更多数据（比如说我们需要登陆才能进去，甚至有很多在互联网上与特殊网关连接的数据），这些爬虫是无法爬到的。是因为这些数据都不是遵循标准互联网协议开放的，那么这些数据就是深层数据。按当时的统计，Google和百度能够爬到的数据在整个互联网上只占到4%。而96%的数据(7.9G)是藏在深层网络爬虫爬不到的数据。例如，今天我们来看一下，2015年6月，所谓的浅层数据，网站有357万、网页有1899亿，量非常大。但是所谓的深层网络更大，网站可能有上千万，还有400万以上的移动App，这些数据也是爬虫爬不到的，还有各种各样的传统PC应用。当我们真正要做所谓的大数据，当真正要把Web数据获取的时候，其实除了爬虫更有价值或者更大量的数据都是藏在深层网络，但是这些网络数据我们是开采不出来的。

　　可以看一下美国产业调研公司调研的数据，调研美国硅谷的大数据公司，90%的时间花在数据的采集、清洗、组织和管理，只有10%的时间用来做所谓的产生业务价值、可视化的数据分析。大家可以想象这中间的问题。然而硅谷的投资，大数据的投资52%一半以上投向了数据采集和组织，这说明了数据采集的难度。另外的例子其实非常多，比如说现在很火的不动产登记，实际上就是把我们国家林业局、农业部、房产局的很多土地的各类土地数据全部汇总到一个新系统上，对我们CIO来说就是老数据导库的问题，但是麻烦在这些数据在不同部委，以不同方式实现，几乎是导不过来的。像我们帮内蒙古做的案例，他们九个人在那蹲点四个月，只能手工爬取这些数据。实际上就是手工的拷贝粘贴。我们一直谈论，只要你的系统上了云计算就没有信息孤岛，实际上，不是的！因为其实我们今天的系统，不管是浏览器能打开的BS，还是手机的AS，还是原来经典的CS基本都是追寻三层体系结构。什么意思呢？数据放在数据库里面，但是那里面只是数据的值和它的基本语法，这些数据到底怎么用、是什么意思，以及之间的约束关系全部是通过业务层代码用手工编写，然后再用表现层跟用户交互的。当我把这个系统全部搬到云计算之后，要把后台数据拿出来的时候，我光看数据库是不够的，我必须要看业务层的代码才知道这些数据到底是什么意思、之间的约束关系是什么。这就导致，一旦我们原来为了把数据拿出来，不仅要把数据库打开还要看前台源码系统。这就麻烦了。第一，如果没有源码怎么办。第二原来的团队解散了怎么办。第三如果我们用的是第三方的商用应用怎么办，那么你找谁要数据？所以这就导致我们真正要去把数据从传统的或者现有系统拿出来的时候基本上不知道怎么拿。当然中间还包括很多问题，比如说这时候一旦把管理权限开放了，建立了一个新的通道，这个时候它的风险、原来系统的冲突以及人员调配等等都要进行重新评估。还包括什么问题呢？例如，若原来系统的开发商由于他利益的问题他不愿意跟你谈这个事情。所以就导致今天的数据开放面临着不会、不敢、不愿三大问题。当真要做数据开放时要么重写系统，要么手工导入，要不干脆不开放。

　　看完数据后我们再看应用。今天应用随便打开一个，比如说58同城、QQ、微信，里面集成了大量的其他应用。这些应用是什么概念？它就是一个所谓的API经济概念。什么意思？当一个企业基于它的数据，在它的数据上进行了业务加工以后，其实它只能猜出来或者预测到出80%的人可能会以这种方式来用我的数据，所以他开发了一个客户端。但是他往往没有想到，当他把业务数据放出去以后可能有更多人从它自身想不到的角度去用它。这就是互联网场景化。比如说Google和Facebook，还有Twitter，有75%以上的流量不是从他们自己的App调，而是从别的App以API方式调用。所谓的场景化和共享经济催生的API经济。这里可以看出一个很严重的问题，所有人知道我把API开放以后，除了别人会用我的App以外，还会用我的API去在其他App里面使用我的服务，那是个好事。但是目前按国外的统计，只有14479个开放API。这数据多吗？其实非常少。大家想想，我们App已经400万了，一个App难道才一个API？肯定不止。为什么呢？其实我们开放出来API的这些系统还是三层体系结构，这比开放数据更难的是要把前端业务层的那些代码，中间的某一个片段抽出来以API方式对外提供，这个难度、风险远大于前面的数据。

　　最后我提一下学术界非常重视的一点，就是混合云或者是云和云之间的互操作或者说云提供商的锁定问题。也就是说，今天我们说当把你的应用放到了阿里云上，你就很难迁移到腾讯云，相反放到了腾讯云你就很难迁移到Ucloud，这是为什么？我们说本质上是因为我们所谓的把云放上去是因为云计算提供了一组它自己管理的API，然后你用这些管理的API干什么？去创建虚机，对虚机进行增删查改停，然后还包括各种各样的存储服务、高端的一些PAAS服务，这些东西实际上运行的云服务都是私有的。好，那我们说产业界有没有努力呢？有，但是这个努力很遗憾的是，它不是一个国际标准的方式，它是采用的事实标准的方式。是什么？就是谁在产业中这一块是老大谁就说了算。我们可以看一下，2012年亚马逊EC2的API被认为是事实上的标准，如果你不遵循EC2或者兼容的话就是说你不是一个比较流行或者比较主流的公有云。但是到2013年发现，Google推出了Libvert认为是虚拟化的标准API，大家都遵循了。2014年OpenStack变成了IaaS的标准化的公认试验田。刚刚还常说OpenStack最好，Docker出来了。Docker是什么？是上面的应用，实际上是应用和部署配置的标准化实验。未来，我们的大数据是不是基于云计算的大数据是不是还有其他的API？不知道。因为这些API的存在导致我们很难把我们的服务一旦上到云服务以后很难迁移到其他云。所以这对于产业而言，这是一个比较大的难题。尤其是对于创新创业。整个云计算，我们可以看到他的资源，从底下的硬件到上面的软件，目前基本上都是传统的信息孤岛。我们要把它打破花费的成本、遇到的风险非常大。
第三十五届CIO班招生
国际CIO认证培训
首席数据官（CDO）认证培训

责编：黄罡

免责声明：本网站（http://www.ciotimes.com/）内容主要来自原创、合作媒体供稿和第三方投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
本网站刊载的所有内容（包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等）版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时，请及时通知本站，予以删除。