首页 > 大数据 > 正文

宁家骏:满怀信心拥抱大数据时代的到来

2012-07-24 15:34:48  来源:CIO时代网

摘要:大数据的应用一定要注意到它意味着业务的变革和重组优化。最后讲一点,怎么样来做好大数据的应用?首先要做好数据挖掘,大数据应用离不开数据挖掘。
关键词: 大数据 数据挖掘

    2012年7月22日下午,由北京大学信息化与信息管理研究中心、北京大学CIO班教务办公室主办,CIO时代网承办,北达软协办的“首届中国大数据应用论坛”在北京大学北配殿成功举办。来自各企事业单位领导、行业权威专家、信息化负责人等出席了本次论坛,就如何挖掘大数据价值、大数据时代的应用等问题进行了分享和交流。


    国家信息中心专家委员会主任、国家信息化专家咨询委员会委员宁家骏先生发表了《满怀信心拥抱大数据时代的到来》的主题演讲,以下为演讲实录:

 

\

国家信息中心专家委员会主任、国家信息化专家咨询委员会委员宁家骏先生
 

    尊敬的王主任、各位领导、各位嘉宾大家好!非常荣幸又一次到北大来参加论坛讲座,后面还有很多专家要专门介绍大数据,所以我就抛砖引玉做一个开场白。《满怀信心拥抱大数据时代的到来》,这是我今天演讲的题目。这个题目是我最近参加新加坡组织的国际CIO论坛得到的深切体会。


    就我个人所知,这几年来国内做云计算的论坛很多,做物联网的论坛也很多,但是真正讲大数据的还很少,也许这是第一次,所以很荣幸在这里跟大家交换一下关于大数据的看法。我想跟大家谈三个方面的问题。


    云计算和大数据迎来了新的时代。前面姚乐秘书长和王主任都对大数据做了一个很好的诠释,例如云计算,最近大家在讲到云计算的时候,不仅仅强调云计算资源整合和提高效率、节约资源方面的东西,更强调云计算和大数据在一起的这种计算能力、数据挖掘能力。也就是说,大数据蕴藏着大的宝藏。


    大家都知道,我们中华民族有悠久的历史和智慧。比如说要找老中医看病,他们都是给我们号脉、望闻问切之后,再根据每个人的体质具体开方子,不可能有两个人的中药方子完全一样。但是现在我们在吃西药的时候,基本上很多人都吃同一种药,跟中医不一样。现在国外开始用的云计算和大数据,像人是最复杂的有机体,人体的各种数据来研究个性化的医药生物,就像中医一样,给你做的药只适合你个人吃,或者适合你这个家族或者这一类的人吃。当今这个时代是一个信息化助力社会全方位创新的重要时期,云计算、云服务、大数据成为新时期信息化重大突破的前沿,也为信息化展现新的前景。大家都知道,之所以有大数据,是因为信息技术发展过来的,引用Google里的数据,1982年以来CPU性能提高了3500倍,内存价格下降了45000倍、硬盘价格下降了360万倍。有人说:如果1982年一辆宝马车是四万美元,如果与硬盘同等速率下降,现在宝马车应该就卖一个美分。当然这是不可能的![page]    从73年前开始,人类进入了信息通信技术飞速发展的年代,68年前发明了计算机,53年前发明了集成电路,46年前发明了光纤,43年前进入了互联网时代,到了38年前出现了PC,33年前出现了移动通信,23年前出现了Web,1999年开始进入了3G时代,现在已经进入了以LTE为代表的4G时代。从DOS到GUI、Web、云时代、IOT时代,今后一定是以用户为中心的时代。所以出现了三个共享:网络共享、信息共享和资源共享,同时也开创了云终端后PC时代。今天胡主任在这里,我们到过他们企业看过,现在华能电力完全用Pad代替了过去的PC,生产指挥调度系统、决策系统、ERP终端现在全部用Pad。Pad有两种,一种是领导干部高端引用的是苹果,到了一线中层以下使用国产的Pad,这就完全取代了PC。


    移动互联网也使得云计算更加普及,特别是计算机技术体系的演进。在原来的分布计算、网格计算、公用计算、机器计算的基础上,通过复杂扩展进入到虚拟化云计算时代,所以这就更强调了我们今后的服务,可以说迎来了基础架构变革的新时代。比如人们购买自来水不用自己家打井、接入电网不需要自备电场一样,这就是一个新的革命,当然也给我们提供新兴IT使用和交互模式,特别是云计算很重要地解决了异构和数据整合问题。现在国务院督牌建设全国保障房监管系统,这是典型的利用云计算平台解决异构数据和数据整合,现在有70多个城市在使用。为什么呢?因为大家都知道,在各个城市,买房子都要通过网上购房系统,每个城市都有自己的购房系统,而每个城市购房系统由各地在不同时间先后建设的,所以没有一个统一的模式,数据是异构的,整个基础架构也是异构的。比如说有Web方式的,也有CS方式,也有用甲骨文数据库的,也有用其他数据库的,所以我们要尽快整合起来就要采用云计算的方式。正是这样我们看到了新的计算模式,例如“4个O”模式:社交、位置、移动、商业,就使得移动互联网环境下数据共享、信息共享、服务共享变得更加现实。正因为在这样的大背景下,海量数据的增长是不可阻挡的洪流。大家也知道会有各种数据量的变化,但是我想强调,今天我们讲的“大数据”不等于“海量数据”,大数据是海量数据+复杂类型的数据和不断变化的数据,所以复杂类型的数据既包括了传统结构型数据,也包括了半结构化的数据,还包括了完全非结构化的数据。所以说大数据不同于海量数据的另外一点要特别注意:海量数据首先是量能特别大,常常是超过TB级的,但是大数据是在海量数据加工基础上形成的,可能它的绝对数量可能小于TB级,甚至是若干个GB级,也可以称为大数据。这点就是大数据一个很重要的概念。


    大数据里头的90%的内容属于音像非结构化的内容。大数据时代正在到来,首先是有各种传感器,有各种社交媒体、电子交易数据、视频监控数据,还有其它的地理信息,以及医疗影像数据、基因序列,这些都构成了大数据。什么是大数据呢?它是数据级的概念,又大又复杂,用传统数据库没法儿处理或者处理起来很困难的,这样的一个数据我们才能叫做大数据。所以说大数据有三个特点:“三个V”,第一个就是要求速率非常高,第二个是一定持续快速增加的,第三个就是多样化的。这是大数据三个特点。


    那么具体有多大?这里有一些数据是国外的数据。Facebook每周新增图片容量60TB,每日评论达到32亿条,图片总量超过了20个PB。它的操作也是非常大的,例如亚马逊目前有45万台服务器进行存储和数据处理。所以大数据首先从人而来,人人都是记者,我们的博客、微博,是所谓信息的提供商,我们的职业撰稿人就包括了写手,还有普通大众,SNA网络传播。另外一个从何而来呢?从机器,存储、加工、传播,另外还从物理世界而来,因为无所不在的感知数据,传感的节点,这些视频监控、监测点也是越来越多。数据虽然多,如果采集处理不好的话不一定能解决问题。比如深圳的案例就是一个豪华车撞了老百姓之后,引起网民置疑,因为就是没有真正采集到谁开的车,是不是顶包了。大数据就是做服务,如果不能提供服务,它也就没有意义,服务要面向物理世界、机器、人。比如说北京7月21号大雨造成了一些人不幸身亡。其实水务局一直有做北京市上水和下水,包括用物联网来管理,但是现在看起来还是没有完全管好。以至于北京市委书记还是说“北京基础建设还是薄弱”。所以人、机器、物的共同参与才能把数据价值真正的发挥出来。


    跟传统数据库相比,大数据有很重要的一些特点:首先是数量大;其次是跟原来数据库不一样。过去我们做数据库都是要进行清洗之后再进行加载。但是大数据不是这样,它有噪声、冗余,往往是非结构化的,所以更重视交互。因为它往往不是银行生产性交易数据,所以说它更有特点。


    我们面临的大数据时代至少有三个方面的挑战:一个是规模的挑战。由于大,很难给出一个绝对的数据标准确定大小。有时候也并不是数量绝对大,但是由于数据复杂、用处非常多,所以仍然属于大数据;第二个是数据结构的复杂;第三个是数据关联度更高。因为交互而来的数据都是你应我答、甚至是互相PK的数据。前不久还发生了微博“约架”的问题,那都是交互出来的,所以它的关联性很高。由于它不再是传统数据库,所以用传统的SQL语言无法解决这种实时读写性需求以及复杂多表关联的查询等问题。以前我们用甲骨文数据库查询做表的时候,一旦表和表之间关联多了之后,查询的速度是非常慢,导致做出来一个表非常慢,一般来说都要建一个甚至好几个索引,通过它来解决关联的问题。而大数据不可能用关联、建索引的办法解决,正是因为这样,百度、Google都在推进非SQL的普及,通过大数据影像、压缩处理来解决好这个问题,同时也更依赖于将来要有支撑大数据新型的操作系统。


    国外一些学者认为,目前面临大数据平台还有很多问题,正是因为这样国内也有很多机遇。大数据研究商业目标是最终为了更好的支撑Web服务,更加流畅实现交互、更加快速获取资讯、更加方便我们的生活和工作,同时使我们在物联网或者泛在网络实现人、机和物更好地融合。


    在处理大数据的时候我们遇到了很多的问题,例如关系性数据库在大数据量面前是尴尬的。如何保证数据质量、使业务需求跟数据运算之间达到平衡?大数据需要解决的问题,首先是超级存储设备系统,需要分布式存储,对分布式存储统一管理,也需要对大数据进行及时加工、分析、处理。这里有一些应用场景,对于大数据来说怎么样能够把零售、银行的东西更好地反映给用户,这是一个场景。比如说我们怎么样用大数据处理更好地解决医疗问题,解决面对不同疾病、个性的问题,这就要求我们把Web应用进一步发展。现在有Web2.0、Web3.0,还有人提出要向Web4.0方向发展。所以用智能技术应用,通过它把Web真正的应用起来,而这种方式使得网络传播模糊了现在新闻发布者和受众的界限。


    中国的大数据市场是非常大的。我们人多地广,每个行业都有大数据需求,企业非结构化数据越来越多,并且正在快速增长,但是大数据市场和我们的工作还有很多要解决的问题,当前很多企业数据架构存在着很多问题,比如老系统扩展性很差,所以在数据系统里面缺少数据换方位分析,这个时候我们还需要更好地处理。现在国内也有一些解决方案,例如银行信用卡、农夫山泉企业等,还有通过“数字黄河”解决汛情和排泥沙等问题。总的来说互联网进一步发展拥抱了大数据,给我们带来发展机遇,特别是在医疗行业。我们可以通过远程病人监控、医疗档案建设等使得我们对医疗大数据的应用有更多的期望,同样在能源方面,也面临着大数据的问题。大数据行业应用,比如说互联网、电信、金融、流通、能源、政府等行业都有很多应用,所以潜在空间非常大。[page]    小结一下,大数据的应用一定要注意到它意味着业务的变革和重组优化。最后讲一点,怎么样来做好大数据的应用?首先要做好数据挖掘大数据应用离不开数据挖掘。许多数据库现在都不完全适合大数据分析的需要,而数据挖掘是在数据库基础上相对来说还在不断发展的问题。随着数据库的演化,随着技术、硬件发展,大数据数据挖掘是今后跟云计算同时而来的下一代技术热点。现在信息量大、难以消化,真假难以辨识,我们要通过挖掘得到真正有价值的信息。


    如果说我们随着快速增长的海量数据不断收集把它存放在数据库里,存储在存储系统里,如果没有强有力的工具,那我们理解它们会超出人的能力,所以说现在的海量数据已经成了数据的坟墓,所以我们要从大量数据里面挖掘出有用的东西,离不开数据挖掘。当然这还有一定的过程。很重要的一点就是,过去传统数据挖掘主要是基于数据仓库来做的。而现在的发展趋势目前正处在鸿沟阶段、跨越阶段。跨越的阶段是什么呢?过去的数据挖掘是给一些专门做数据挖掘的专家或者高级技术人员使用的,受众面少,很难发挥数据的效用。现在为什么它处在跨越鸿沟的阶段?就是要把数据挖掘从专家那里解放出来,变成每一个人、每一个受众、每一工作人员、每一个干部必须掌握。像华能最近做的,就是用云终端做的ERP方案,做得非常好,他们通过梳理,把数据通过ERP进行数据挖掘,使领导看到的都是非常形象化、生动活泼而且是不断变化的数据,所以领导非常满意。我们怎么样把数据挖掘技术与特定业务逻辑集成起来?这就是我们必须要解决的问题,怎么样把数据挖掘和特定数据类型结合起来,以及如何跟交互式数据结合起来。因为挖掘不是说挖一下就可以了,得挖出来看看,所以这些是数据挖掘中间必须要做的。


    金审工程二期中间对审计业务的大数据做了深入分析,他们对全国地方债进行审计。近几年我们经济发展由于种种原因,地方举债非常多,中央政府也非常关注,让审计署专门审计地方债务,所以就建立了地方债务基础数据库。这个数据库非常庞大,还要对这些进行逐个审计,而且要综合考核。比如说你这个省、市的偿债能力跟GDP、每年财政收入比例有没有吻合起来,需要单独地进行校核,还要建立地方审计专门模型。发达地区是一种模型,贫困地区是另外一种模型,大城市一种模型,中小城市是另外一个模型,根据这个模型再进行数据分析,才形成审计报告,虽然对外公布没有说,但是通过挖掘发现了有些城市有问题,审计署领导说确实有可能发生债务危机。当然这种方式还可以用在市场管理、风险管理、检测管理当中。数据挖掘系统已经从原来的第一代朝新一代发展,包括正在和预测模型、系统集成相结合,和各种计算数据联合,通过它支持半结构化数据和Web数据,同时建立起更加普遍存在的计算模型。


    新一代数据挖掘系统,最重要的是能够挖掘嵌入式系统、移动系统和普世计算机各种类型的数据,同时新一代的系统最重要的是能够开发出挖掘分布式等新一代数据挖掘,实施中间需要我们根据应用需求来通过确定好实施战略。既要考虑到原有数据库,同时要根据新需求弥补当前数据库和数据仓库管理系统的缺陷,更重要的是应该有一个开放模式,使得挖掘结构与操作型数据做到集成,这是非常重要的,同时能够应对多种数学模型。所以说数据挖掘系统有很广阔的前景,也是我们对付大数据应用一个很重要的手段。


    当前我国正全面提高信息化水平,在进入“十二五”一个关键时期,我国也把“十二五”进一步推进信息化作为重大方略,把云计算、物联网等方面都写在了《规划》当中。当前搞云计算一定要“化云为雨”,“雨”就是一定要落实到应用,而应用离不开数据,所以搞云计算一定要和大数据应用紧密结合起来,要重视把云计算和大数据应用协调发展起来,云计算绝不仅仅是搞几个数据中心。要通过大数据应用推动电子政务、电子商务、社会信息化发展,解决当前发展中间所必须解决的各种矛盾和问题。工信部的领导和国务院很多领导都说到了,也写在了《规划》里头,国家信息化规划也明确说到把形成虚拟化计算、分布式计算、新一代海量信息智能搜索、智能挖掘等自主技术和标准体系的建设作为新时期信息化的重大专项推进。在国家科技部最近下发的《中国云科技发展“十二五”专项规划》明确提出了一点,在关键共性技术攻关里要解决好跟云计算密切相关的大数据的挖掘应用问题。国家发改委最近批准的《“十二五”国家政务信息化工程建设规划》里也明确提出了,要鼓励采用云计算等新技术,促进基础设施和信息资源的共享,培育多元化的公共服务。


    所以,发展云计算和大数据应用面临着一个非常好的发展机遇,大数据是继云计算、物联网之后IT产业又一次颠覆性的技术变革,对国家治理、企业决策、流程再造、个人生活都将产生重大的影响。大数据时代里头,我们到底是一个生产者还是消费者?这个界限不断消融,数据进一步成为核心资产,深刻地影响着业务模式,包括重构文化组织。可以不客气地说,大数据时代顺昌逆亡,如果不能利用大数据更加贴近受众、深刻理解需求、高速分析做出预盼,所有传统业务都将会落伍,它的衰落不能够靠管理扭转。我们说,面对大数据时代,面对文化战略组织流程信息化以及人才方面各种的挑战,应该说给我们的信息化和信息产业迎来了一个重大的转型机遇和飞跃的契机。所以今天北京大学举办“首届中国大数据应用论坛”,是一个具有里程碑意义事情。我相信通过今天到会的各位领导、专家学者的共同参与和努力,在国家正确领导下,在各个部门支持下,通过积极发展自主创新,我们在大数据方面能够迎头赶上,为我国信息化产业迎来一个更加美好的明天,谢谢大家!


第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:fanwei

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。