首页 > 云计算 > 正文

阿里云章文嵩:互联网+时代的云计算与大数据实践

2016-01-25 09:42:33  来源:CIO时代网

摘要:阿里云副总裁、首席科学家章文嵩先生作为LVS(Linux Virtual Server,Linux虚拟服务器)开源软件的创始人也在本次论坛上为各位嘉宾带来题为“互联网+时代的云计算与大数据实践”的主题演讲。
关键词: 阿里云
  2016年1月10日,“第六届中国云计算应用论坛”在北京大学圆满落下帷幕,本次论坛以“云计算时代的创业与创新”为主题,并围绕“基于云计算的创业与创新”、“云计算生态系统的打造”、“行业云平台的创业创新机会”等议题展开讨论,来自阿里云、腾讯云、京东云的重量级嘉宾都参与了本次活动,与此同时还吸引了众多传统企业CIO、互联网公司CTO以及业界专家参与此次盛会。
\
 阿里云副总裁、首席科学家章文嵩
 
  阿里云副总裁、首席科学家章文嵩先生作为LVS(Linux Virtual Server,Linux虚拟服务器)开源软件的创始人也在本次论坛上为各位嘉宾带来题为“互联网+时代的云计算与大数据实践”的主题演讲,以下为演讲实录:
 
  大家早上好!首先感谢姚博士的邀请,很高兴来这里和北大CIO班的同学们做个分享!先自我介绍一下,我叫章文嵩,在国内98年5月份写了一个开源软件叫Linux Virtual Server。让我觉得很高兴得是这个软件还活着,到现在还是被广泛使用。我自己也写过很多其他软件,很多软件已经死掉了,但是这个软件的生命周期够长,现在快18年了。这个软件也是创造了巨大的价值,叫做负载均衡,几乎大的网站,稍微有点技术的网站公司都会用Linux Virtual Server 。
 
  回到今天和大家分享的题目:互联网+时代的云计算与大数据实践。现在互联网+成为一个国家战略,而且互联网+跟各行各业的融合刚刚开始。互联网+意味着什么?我们自己的认识是三种技术三位一体,互联网、大数据、云计算。因为整个互联网是没有边界的,互联网业务通过网络触及用户是没有任何边界、没有地域限制的。过去生意有地域限制,但互联网是没有限制的,互联网里面的竞争是最激烈的。互联网促进了用户和用户的交互行为,交互行为会形成大量用户行为相关的数据。拿这些数据可以刻画人的行为,整个人的画像。有了这个画像我们可以对人进行个性化搜索、精准营销、精准广告等等。阿里在2008年就认为是一家数据公司,因为我们大部分收入的业务依赖于这些数据。阿里很多运营工作都是基于数据的,做数据化的运营。在这里我们通过互联网积累了大量的数据,数据就像战略资源石油,云计算好比发动机引擎,配上业务模型通过云平台来跑,基于数据出发,运营业务会达到一个很好的效果。各行各业通过互联网+方式一定会有很多的创新。
 
  全球云计算增长率 45%。实际上传统IT增长率是非常低的。云计算本身它把很多变成服务化,很多资源、计算、网络存储都服务化了之后,按需来使用。那么背后本质驱动力是资源聚合,资源聚合可以提高资源利用率,这是背后最本质的东西。因为每个人使用计算资源的时候有波峰波谷,那么把它合在一起可以达到更好的资源利用率。我举个极端的例子,有个A用户是白天用、B用户是晚上用,原本他们要各花一个单位的钱去买机器,现在我是一家服务商,我说你们不要买机器了,你只要付0.6,那这样我从A和B收到1.2,但本质上我只有一个机器服务他们,因为他们错峰了,这样客户也省钱了我也赚到钱了,我还有20%的毛利率。当然A和B也不一定把100%资源用完,也可能我这台机器还可以给C客户用。这是云计算背后最大的推动力,除了方便性以外,他实际上帮客户省钱,还能使客户获得更大的能力。正因为这种驱动力存在,所以云计算在全世界范围也成为热潮。基本上每家公司,刚才说亚马逊非常领先在云计算里,而Google是在整个互联网领域里的老大,之前对云计算不怎么重视,GAE也不怎么成功,然后转走GCE,也成为他们主要战略之一,微软也是重金投入,包括IBM、Oracle、EMC,这些IT巨头都纷纷转向云计算。
 
  云计算对于我们整个行业格局来讲是一个巨大的变化。就像我在学校最早做老师的时候,做课题,申请的资金大部分买硬件,软件上面投入更少,人头费更少,大部分都是这样一个三角,大部分钱花在硬的方面,实际上这样资源使用成本更低也更容易获得,在上面做数据创新、做业务创新。从这个生态来讲变成一个倒三角生态。计算能力并不会成为一个门槛。
 
  这是云计算和传统IT的一个主要区别。传统IT首先进入门槛很高,有了IT投资才具有能力,又是钱又是人。而云计算是把过去积累的大量的IT能力输出给个人或者中小企业用户,所以使得创业非常容易。而且很多数据是我们一直在的,只是收集和不收集而已。比如说手上戴的一些设备,其实我们心跳一直在,只是过去没有收集,而现在通过收集可以对健康状况做出分析。数据一直有,只是过去我们没有能力把数据全部收集起来、存储起来或者加以利用。未来基于数据的创新会越来越多。
 
  为什么阿里能做云计算?因为过去电商业务的发展已经建立了一个强大的基础设施。包括阿里从一开始,从99年开始,整个网络规划是我们跟运营商做BGP对接,CDN的网络有十个Tbps的能力,包括“双十一”的支持。整个网站全是HTTPS,目前在电商领域我们是最大的HTTPS流量网站,客户从一开始进来,就转向HTTPS。我们数据中心在云的数据中心在杭州、青岛、北京、香港、深圳、美国、上海、新加坡,我们美国也开了两个机房,在欧洲马上会开,另外在迪拜、日本也会有。
 
  我们大概有30多种的云产品。最标准的像弹性服务。举个例子云计算的好处,比如说ESS,弹性伸缩服务。我们在去年央视春晚直播,不知道需要多少台机器,因为这个流量难以预计。我们就可以跟CDN结合,我们可以做弹性扩展,可以扩展到当机器负载不够时,比如说设到70%以上,我们触发一条规则可以加新的机器,这样它可以自动扩展。央视只需要付一晚上几个小时的钱而不需要建上千台机器的规模。我们把CDN能力都输出成服务。阿里数据库能力是最强的,我们把数据库能力变成RDS服务。我们在大数据的计算上有ODPS数据平台、实时分析平台、数据开发平台。阿里过去对网络安全、系统安全有相应的能力。我们的云盾在2014年12月份时替一家在线服务商,用我们的云平台DDOS攻击流量是453G,持续攻击了14小时,网站还活着,正常为客户提供服务。这是公开报道中受到攻击流量最大的。在应用层我们也做了一些中间件服务,都是能应对大规模高并发访问的应用框架变成了一个服务。
 
  阿里的大数据,2008年阿里就认为自己是一家数据公司,我们用了很长一段时间Hadoop。自己在飞天的平台、ODPS也非常艰辛的做了五六年,在2014年我们把Hadoop全部换掉了,各方面指标都超越Hadoop了。我们最近的一个成果,能说明我们平台优越性的就是SortBenchmark.org比赛。这个是每年都会比赛的,我们做100T GraySort,我们是377秒就可以做完。第二名是一千三百多秒。我们基本上是1/3的时间就可以做完。所以说我们的计算性能是非常高的。
 
  我们有离线的计算引擎、大规模学习引擎、图计算引擎、流处理引擎。光数据平台有计算能力还不够,在上面大数据开发平台怎么样,我们有一套开发套件,包括BI的套件,有了这个开发工作的套件大数据之后,在上面我们做数据市场,我们想做数据市场,数据市场是最有挑战的。阿里积累了大量电商相关的数据,我们自认为这也是数据的一个侧面。很多数据我们也并不拥有。我们电商积累的数据跟商家分享,希望A商家可以看到他自己店铺的数据,但他看不到B店铺的数据,B店铺可以看到他自己的数据。我们过去的出发点是希望商家自己拿数据化做运营,我们也提供开放的API,让商家可以把数据拿走,但大部分商家没有自己的研发能力,他找了第三方软件开发商,结果几百家上千家店铺找了同一家软件开发商,结果把数据都给拿走。我们看到,好几百家电商数据都被一个ISV拿走,因为同一个IP地址来取这些数据,接着我们看到ISV发布淘宝天猫相关的数据。当然在国内,大家对数据的产权意识并不浓厚,所以我们发现这个漏洞以后很快堵上了,我们也提供了一个数据开发平台。就是这个原始数据不能拿走,你可以在这个平台上算,但是原始数据拿不走。等于是我们提供了食材、厨房,你可以在里面做大餐,那个项目叫“御膳房”,实际上它已经运行了两年多了,通过这个方式来保证数据的安全。
 
  数据,我们不光是给商家开放。我们对其他客户,非商家以外的客户也开放,我们也做了一些尝试。当然前提是保护用户隐私的情况下了。比如说尼尔森做调查统计的公司,它会把一家,比如说它的客户的报告做调查统计利用我们的数据,他跟我们讲模型、算法是怎么样的,在我们的平台上我们确保模型算法对用户的隐私各方面、数据保护没有影响。那就在我们的平台上面跑。跑过之后,尼尔森就说按他们的行规,这个最终的报告应该归他的客户所有,因为客户掏钱,那我们就说客户掏你多少钱?他给我们讲了一个数字,那我们按多少比例分成啊。我们阿里也是对更多的客户开放数据,同样我们基于这些数据也会有收入。同时用户的隐私都是得到保护的。如果我们能把数据变成一个业务,然后通过平台的方法来进行保护,说不定其他公司也可以,用我们的平台方法来让数据成为赚钱的业务,这样的话有可能形成一个数据的交易市场。这是非常新的概念,我们也是摸着石头过河,也没看到其他地方这样进行。即便在美国,我们也没看到类似的一些东西。
责编:pingxiaoli
分享到: