首页 > 大数据 > 正文

陈宝国:大数据带来的机遇与挑战

2013-07-24 13:55:25  来源:CIO时代网

摘要:国务院发展研究中心国际技术经济研究所研究员陈宝国先生在“大数据带来的机遇与挑战”的主题中发表了自己的见解。他指出价值密度低,是大数据的一个典型特征。
关键词: 大数据 信息化 CI

    以“从大数据中挖掘大价值”为主题的“第二届中国大数据应用论坛”于2013年7月21日在北京大学英杰交流中心阳光大厅隆重举办。本次活动由北京大学信息化与信息管理研究中心和北京大学CIO班教务办公室主办,北达软协办,CIO时代网承办。各企事业单位信息化负责人、北大CIO班学员及有关媒体代表200多人荟萃于此,对大数据的众多议题进行了热烈讨论。


    国务院发展研究中心国际技术经济研究所研究员陈宝国先生在“大数据带来的机遇与挑战”的主题中发表了自己的见解。他指出价值密度低,是大数据的一个典型特征,核心是把这些不关联的数据进行交叉分析去得出新的价值链,才是大数据未来核心的价值链。因此要从大数据中找到核心价值,同时对大数据的重要性以及面临的机遇和挑战做了详解。以下为演讲实录:

\

    非常荣幸今天上午能在北京大学跟大家共同就“大数据带来的机遇与挑战”这一主题做交流。邬院士的讲座给我们大家从大数据整体的现状、发展的未来以及网络、内容等各个方面做了一个非常好的普及,也给我的演讲做了铺垫,也给我跟大家做交流带来了机遇与挑战。


    什么是大数据?在邬院士的讲演里,相信大家都有一个非常好的了解,就是比较大的数据。这里我们做了一些图表,大数据确实非常大,大数据有四个比较显著的特点:第一,非结构化,异构和多元性以及大量不相关信息和实时分析,而非批量分析的数据。大家重温一下,邬院士刚才也做了论证。比如“原来带数据进程序”、“现在带程序进数据”。面对大数据的这些特性,它的价值到底在哪里?对于大数据的挖掘,目前大家听到最多的就是对于大数据的挖掘、实时分析。其实我们大家应该有个共同的认识,大数据之所以大,那么它带来价值的信息、密度同样非常低,对于几ZB的数据来讲,如何能从如此大量的数据当中发现价值,它的前提就是这些大数据中有大量的数据是没价值的。为什么没有价值的数据,大家如此重视?之所以没有价值,那么找到这些没有价值中的价值才是大数据核心价值所在。这不是绕口令,而是真的东西所在,“价值低密度”是大数据的典型特征,如何在这么大量的数据里面淘这些仅仅的一点点的价值?当然我们说的“一点点价值”是就大数据本身来讲,那么你淘的价值对你自己来讲是非常大的。


    第二,多样性。对于大数据的分析和价值的体现,也就是说我们刚才所说的,大数据有不同的那么多的数据形态、非结构化数据,如何在面对不同的数据类型中通过交叉分析技术去找到关联?才是大数据的核心技术之一--怎么发现关联。我们对同一类数据的分析,比如交通数据,还有对医疗数据的分析,油耗数据分析等等,这也是大数据的前提。但是核心是什么?核心是把这些不关联的数据进行交叉分析去得出新的价值链,才是大数据未来核心的价值链。刚才邬院士也讲到,数据现在有两类生成,一是人为生成数据,我们自己每天生成数据。我们的工作有很多,我们的工作大部分都能体现到数据中,被输入到互联网当中来。但同时又有很多自然生成的数据,并且这些数据是以前没有关心和体会到的,比如生产数据或自然数据,这些数据大部分就是非结构化的数据,跟我们的工作实时关联,可是又是不同类型的,那么如何采用交叉分析技术形成新的、以前从来没有想到、没有关注到的技术或者数据,这才是大数据的价值。


[page]    第三,速度。一秒是临界点,我觉得一秒可能对于某些环节来讲都长,实时处理的要求是大数据区别于传统数据仓库技术这种关键性技术之一。如果对于大数据的分析、大数据的利用时间过长的话,就失去了这种价值的机会。刚才邬院士也讲,对等的交流、直联或者说是应用层的交流都是大数据应该所面对的问题。


    第四,数据量。如果说想从大数据里得到你所应用的价值,为什么要有量呢?我们可以回想一下,刚才看的第一张幻灯片,价值的低密度是大数据的特点,如果没有大量的话你如何调整这个点。因此,我们在大数据使用里面非常像淘金。比如说沙金,那么多的人要淘那么多的沙子才得到一点点的金子,而就是它才能带来价值。所以数据量的大小决定你是否获取到有用信息的基础和关键。


    大数据是不是云计算?刚才邬院士做了一个非常好的铺垫,其实大数据与云计算具有不可分割性,但它不仅仅是云计算的问题。大数据比云计算更为落地,它与实际工作、获取价值的路径更短,使用起来更加方便。刚才邬院士从整体结构和数据生成给我们做了非常好的铺垫,但是我们想一下,大数据比云计算,具有数据的更加复杂性。云计算生成的数据处理不了,还需要通过大数据的技术来处理,当然处理大数据的技术也需要云计算的能力。


    软件是大数据的引擎。刚才邬院士讲到“以前我们是把数据带入软件,现在是把软件带入数据”,我不知道大家是否真的听懂这句话。以前传输的过程是更新数据,不更新软件,只是把数据做完就行。以前也在说,信息化最重要的是信息,什么信息呢?数据。觉得软件不主要,数据最主要。从大数据来讲,软件和数据是同等重要的。数据放在那块是死的,软件才使得大数据变成活灵活现的价值。所以说,在大数据面前我们创新的是什么?第一个创新的就是软件,第二个创新的才是应用。当然了,有的人说“需求带动发展”这也是可以的,但是如果没有对大数据综合分析处理的软件,那么大数据的实施是不可能的。因此,在大数据的过程中一定要有软件的支撑,软件是大数据的引擎。从图中可以看到数据使用率的情况以及数据怎么去使用,如何使用这些数据对于不同行业以及不同使用者来讲,我们有可能不需要对所有的数据进行清洗、整编和分析,我们可以从不同的数据层级上整理、获取需求,这也就是所谓的“速度”、“价值”。


    大数据的应用不仅仅是精准营销。现在有很多的客户说“我分析大数据,通过数据挖掘能找到客户在哪里”,包括消费行业、金融行业、食品行业、医疗卫生行业都这么说。比如通过大量数据分析,分析身体大量的信号可以分析你的身体健康,这不仅仅是精准营销,其实我们可以通过对非关联客户的行为分析,可以准确预测到跨领域、跨行业的应用前景。大数据核心之一,除了在本行业有大量应用之外,其实跨行业、跨领域的应用以及数据分析带来的行业之间的交叉应用,才是大数据未来真正价值体现的地方。管理大数据“易”,管理还有广度和深度的问题,管理还有精和粗的问题,但是如何去理解大数据,可能更难。


    大数据概念在全国炒热之后,我曾经跟Google战略专家讨论大数据、云计算这些问题,他们说这些概念不是我们提出来的,说云计算的概念我们不知道。对于云计算的技术,Google说他们正在探讨期,我们都不知道中国云计算要做什么。虽然大数据热,从去年开始到现在已经有一年多了,但是如何去真正理解大数据,我想我们在座的每一个人除了在网上所看到的什么叫大数据以及大家所谈论的什么叫大数据以外,能够真正体验到大数据价值的人不多;第二,能够体验到大数据技术的人也不多;第三,能够预测未来大数据应用的人更不多,包括我在内,甚至不客气地讲,包括我们尊敬的院士,对于未来大数据的价值以及大数据未来发展方向,他也不是特清楚。为什么呢?因为他在PPT上打了一个问号,他刚才也说“未来是什么?我也不知道”。因为IT发展太快了。2008年炒互联网,2010年炒云计算,现在我们炒大数据,所以说真正理解大数据,不容易。


    现在大数据是什么呢?大数据有三层含义。第一层含义,是一种技术、是一种未来的发展方向、是一种价值;第二层含义,大数据是商业模式;第三层含义,大数据是口号。什么样的口号?是个要政绩的口号。当然,在不同的数据类型中,存储、分类、统计、建模、预测,对数据的清洗、准备分析等等,这些实施手段应该是建立在交叉分析的基础之上,包括语义分析、图文转化、地理信息系统处理等等,都应该在大数据未来的分析中获得广泛应用。刚才我跟大家简短的介绍了大数据价值以及大数据技术未来发展趋势。那么大数据为什么这么重要?它怎样决定企业未来的业务?你的业务又是如何能够在未来大数据发展的趋势下得到扩展?大家通过这张图可以看出,(这张图也是很多学者总结出来的),实时的管理提前了,基于不同企业的数据,速度更快了、访问更加方便了,那么数据也将货币化了。


    其实是这样的。经过大数据改造的IT,大家可以看到,大数据对企业带来这么大的机遇,这种IT系统也不单单是我们所说的硬件+软件。IT系统一般是买计算机、装系统,完了之后就说数据很重要。IT系统原来就分为三层:硬件、软件、数据。现在不是这样了,现在硬件和软件分不开了,软件和数据也分不开了,所以说现在的IT系统还是硬件、软件+数据的模式,已经不对了,因为硬件、软件、数据合一了,你分不出来了,你不可能把软件和数据再进行重新分离了,因为分离之后,价值就不存在了。所以行业大数据固然重要,跨行业交叉分析会带来新的市场,将催生新的应用领域,将会产生新的产业模式和生态。


    这里举一个例子,互联网的大数据的,现在的美国包括我们的中科院都在做网络行为的分析,这个做好就成为指纹一样,无论你在任何地方只要一上网、敲击键盘,我就知道张三来了。比如说他敲击键盘的力度、频率、手指敲击键盘的颤抖都不一样,这是网络行为,无所谓你是否匿名,因为你的指纹已经被发现了。我们看一下国外的情况,国外的很多行为规范是受中国政府对大数据的政策所引导的。我们可以看出与中国关联性不大的公司、与中国业务关联性不大的公司,它们对大数据的热情没有与中国业务关联紧密公司的对大数据的热情高。因为什么?因为中国都在做大数据,它不做大数据产品就卖不出去了,比如说Google、亚马逊越来越热衷于大数据,并且越来越对中国市场的大数据的产品热衷,特别是针对中国市场大数据产品的销售模式,因为中国是对大数据、云计算、物联网最热的国家。还有IBM、Oracle、EMC、微软都在其中投入了大量的精力来研发大数据对市场的影响,同时也都针对中国做了很多大数据的营销部门,营销技术等等。我们可以看一下,大家看到以后会感觉美国做了这么多大数据的内容,包括美国护照系统、车辆制造系统等等,但是我们回想一下,理性的去看一下,这些是我们想要的大数据吗?这些跟传统的IT、传统的信息化有多大的区别?大数据虽然在国外热,是因为我们把它炒热了,在国外热,是我们把它叫热的,其实国外在大数据的技术开发、市场应用阶段还处于基础性研发阶段,包括技术研发、商务模式研发。而国内为什么这么热?下面我们会继续交流。在国内,大数据非常热,包括大数据图象处理、建立社交关系等等,刚才邬院士也都讲了,云计算中心、大数据中心等在国内建设速度都非常快。


[page]    大数据怎么来的?从2008年的互联网到2010年的云计算一直到2012年的大数据,它有一个演变过程,全国各地也都进行了相关的产业规划。我进行过调查,全国通过发布云计算或者物联网规划的地市级以上城市有400家。这种规划,不包括大数据的规划,但是有些地方已经发布了,包括北京大数据的规划也正在起草当中,大数据产业也成为新型产业在孕育,在国内比较热。国内还说到改变一些商业模式,包括三大运营商说,通过云计算贴近了用户的服务,其实是对他自己的销售有一个很大的提升。各个行业在国内,包括建筑、制造、电信、金融等等,谁要不说大数据,在国内就成为落后了。


    那么大数据如何演进呢?我们觉得在未来的互联网时代,硬件、软件等企业未来都将向数据靠拢。硬件企业基于速度的改变将会向硬件嵌入式软件改变,硬件除了处理结构化数据之外还会嵌入一些非结构化处理平台予以销售。单纯销售硬件,未来将不是热点。软件将会出现分离状态,什么是分离状态?就是单纯的操作平台市场会逐步降低,基于开源性微操作系统以及针对不同数据状态的操作系统将会出现,微软一统桌面的形式将不复存在。除了台式电脑以外,其他的桌面系统微软占的比例将会越来越小,更多的行业将会对数据、特别是大数据产生依赖,特别是公共服务行业以及基于离散制造行业或者过程控制的企业依据大数据去改善自己的生产流程、控制流程将会成为重点。IT投资重心也将会从结构化数据向非结构化数据演变,也将会从硬件、软件到数据库的建设,最早我们说硬件投资,后来又说软件,最后又说数据中心,这个投资逐步向数据处理和运营的产业转变。


    在讨论了这么多大数据之后,大家是否真正看到大数据时代的到来?大数据真正的到来时代不是今天下午,也不是明天早晨,而是后天。我们国内各个行业在炒作的大数据以及在互联网、各个论坛上说的大数据,一部分说的是昨天、一部分说的是后天,而没有说今天和明天,为什么?因为说昨天人的目的是为了把自己原来所做的跟大数据贴边儿的业务硬贴在大数据上,这些企业再往前两年看的时候,它们是做云计算的,再往前看两年是做物联网的,再往前看两年是做什么的?不知道,就是换了个名,企业没换名,但它的产品换名了,一会儿说自己做平台、后来说做物联网,一会儿说做云计算,昨天又做大数据了。那么今天它做什么?它不知道,因为它只想着把产品销售出去。那么明天是什么?它也不知道,我们现在关键技术缺失成为这其中最大的挑战。


    国外,刚才说到IBM、Google以及很多企业,我们强行地把它拉入大数据的领域,其实它本身最早提出的“神经网络”、“神经元分析”、“非结构化数据”、“语音识别”、“模糊识别”等等,都是它们提出来的,它们也确实投入了大量的资源在做这个方面的开发和利用,我们在这个领域里的差距跟国外还是相当大的,我们就等着他拿产品冲击中国市场之后再跟着做,这是我们的关键缺失。


    谈一下标准问题。大家不知道有没有看到过工信部联合几部委发布的《数据中心建设规范》,那个《规范》里面真正提到数据了吗?没有,它提的怎么建机房,使机房怎么安全建起来。有些人说,我们把数据中心由信息中心向农业中心转变,我同意这个观点,但是有多少真正数据中心?都是为了中心的转移而从信息中心转到农业中心的,有很多人在打着做大数据、云中心、数据中心的名义“圈地”。重庆说:我这没地震,重庆是没地震,但今年发水呢!西北适合建立云中心,但有哪个我们所看到的互联网的核心企业真正把数据中心搬到西北去,有吗?有把它的业务搬到西北去的吗?有,不多。西北最大数据中心在向全国进行招商的时候,没人去,我们说“招商”,是招数据商,把数据中心转移到他那吧,一问在哪,说是西北,就不愿意去了。这是大家不愿意说的事实。所以说,中国什么事都缺标准,好像标准落后已经成为制约IT行业前进的重要瓶颈。是这样么?我们做的标准是什么?我们做的标准,对数据标准有做过标准吗?对于大数据的标准,都没有讨论过,对于数据标准的基础研究才刚刚开始。


    另外,商业模式不清。大数据未来有这么广阔的前景,如何去服务产业?不清楚。我们说,国内现在有这么多大数据的企业、有这么多的地方政府要把大数据作为未来新兴产业去扶持,大数据的产业增量在哪?什么叫增量?原来做的换名的不算,真正的增量在哪?真的不知道。


    还有一个问题--运营缺乏创新。我所跟大家交流的包括邬院士跟大家的交流,未来跟大家描绘出一个运用数据去为大家服务的企业、行业。那么现在用信息、数据跟大家进行服务的行业,大家能否举出一二,有吗?有,三大运营商不是在运营数据为大家服务嘛,语音不也是数据嘛(非结构化的数据)。但是未来,大数据的后天将会对运营商产生巨大的冲击,语音将是大数据的组成部分,但是它的比重将逐步降低。对于跨行业的结构化、非结构化数据的分析和提供将是未来大数据的发展前景,也是未来信息化、人类社会的一个未知的财富的宝库。敬请雅正,谢谢交流!


第二十八届CIO班招生
法国布雷斯特商学院MBA班招生
法国布雷斯特商学院硕士班招生
法国布雷斯特商学院DBA班招生
责编:fanwei