首页 > 大数据 > 正文

再析气象大数据及其应用

2015-12-03 15:36:40  来源:CIO时代网

摘要:在气象部门开展大数据工作可在气象社会服务领域开拓出空前繁荣的新局面,并推动气象工作的创新发展,但气象大数据对提高预报准确率的直接贡献相对有限。
关键词: 大数据
  【摘要】在气象部门开展大数据工作可在气象社会服务领域开拓出空前繁荣的新局面,并推动气象工作的创新发展,但气象大数据对提高预报准确率的直接贡献相对有限。气象大数据应遵从业务引领的原则,以具体的创新应用来推动大数据工作的逐步开展,再由大数据反过来推动气象部门进一步的技术创新、原理创新、概念创新和思想创新。气象大数据中心建设目标应以管理气象行业大数据为主,并宜以气象专有云为其物理承载平台。在开展气象大数据工作中,应保持头脑冷静,力戒浮躁。
 
  【关键词】气象 大数据 信息化 分析
 
  1、如何看待大数据
 
  2015年9月5日,《国务院关于印发促进大数据发展行动纲要的通知》正式发布,在全社会引起广泛影响【1】。在此前后,社会上的大数据浪潮汹涌澎湃,推动和裹挟着每一个行业、部门和企业。一些单位和部门急于“抢占大数据制高点”,纷纷出台了一系列政策、措施、机构和项目;气象部门也未能例外,以气象大数据为名上项目、搞工程的苗头已经出现。如何认识大数据,大数据是否适用于气象部门,以及适用于哪些领域,是气象部门决策机构需要思考、分析和综合归纳的问题,因为这些问题的厘清有助于尽可能避免工作中的盲目性并减少失误。
 
  1.1 大数据时代的背景
 
  所谓“大数据时代”的到来,是水到渠成的必然结果,归纳起来有以下几个方面:
 
  (1)数据源泛在化
 
  移动智能设备、可穿戴设备、互联网应用等设备和系统应用的普及,使得数据的采集不再停留在专业部门的业务系统范畴:手机、身份证、交通卡、银行卡、门禁卡、网上查询、网上聊天、网购、网游、GPS定位、视频监控、ETC等一切智能设备都是数据设备,只要人迹所至,就有数据产生。较之上世纪,数据源已极大地泛在化了。
 
  (2)网络广泛连接
 
  在数据源极大泛在化的同时,互联网、移动互联网及物联网将所有数据源连接在一起,人类历史上首次实现了人与人、人与物、物与物之间广泛的连接和自由交换数据。从而将单台设备的数据能力升级到全球网的层次上,极大地提升了系统的智能潜力。梅特卡夫定律指出:“网络的价值与参与者的平方成正比”,网络的广泛连接极大增加了互联网的应用价值,其中包括全社会数据利用能力的增加,以及提高生产力机会的增加。
 
  (3)软件的普及和智能化
 
  软件是人类知识和智慧的外在形态和应用载体,软件将硬件设备、网络资源、传感器、控制器与数据组织成为能够实现目标的智能系统,软件是智能系统的灵魂,也是大数据应用的核心。数据只有在被处理和应用之时,方才成其为资源,否则只能是垃圾;所拥有数据是废是宝,最终由软件的能力决定。
 
  (4)生态环境的形成
 
  “四个无处不在”以及数据源的泛在化,体现了包括传感器、智能终端、高速网络、移动互联网、云平台、大数据处理技术、地理系统技术等多种信息技术共生的新生态环境,所有这一切构成了大数据生长的肥沃土壤【2】。这些基础技术的出现和普及应用为新技术、新应用的集成创新提供了良好的机会。大数据时代是数据大爆发的时代,也是智能系统大爆发的时代。
 
  (5)互联网巨头的推动
 
  互联网将所有数据源连接在一起,网上业务量的激增导致互联网企业的业务数据呈指数倍激增,使得那些成功的互联网企业在迅速成为互联网巨头(如:谷歌、亚马逊、百度、阿里、腾讯等)的同时,其原有的数据存储系统也被一一撑爆,以至于这些互联网巨头们始终在马不停蹄地疯狂扩充自身的存储和处理能力。面对这些每天都在剜心割肉地消耗着不菲的维护资金的庞大业务数据,如何将其进一步变现,以变废为宝、变闲为宝,发掘这些业务数据在业务应用之外的新的价值,便成为这些互联网巨头们迫切需要解决的新课题--此即为何大数据概念的出现以及大数据技术的发展均来自互联网巨头及业务的推动的主要原因。抛开商业目的,互联网巨头们对大数据技术及应用的推动,客观上改变了人们从数据中获取信息的理念,促成了大数据应用理念的革命。
 
  1.2 观察大数据的视角
 
  大数据时代是信息技术发展的必然结果,它的到来不可抗拒【3】。现象的出现和应用的需要,必然导致理论的产生。而大数据理论的主要基础,是考察该事物的视角。
 
  (1)提取和应用信息的视角(关注于数据处理理念和方法的改变)
 
  从数据本身的角度出发考察大数据,是大数据浪潮发端时最初的公认视角。其最具代表性的理念更新当属《大数据时代》一书的作者迈尔-舍恩伯格,该作者将大数据理念的精髓概括为三点:不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系【4】。作者在书中雄辩滔滔地论述此三味真火的背后,有其内心深处对世界本质的认识做支撑。但无论如何,作者对大数据应用归纳的新理念,对于利用大数据资源获取信息的应用提供了一种新思路,其新颖的大数据思维也为科技探索提供了一种新的模式。
 
  《大数据时代》作者在书中关注的是如何从大数据中挖掘出更加准确和丰富的信息,以便指导和改进人们的工作、提高决策水平等等,其视角是大数据的信息提取和应用。气象部门的大数据应用既属此范围,即:从数据中提取信息供决策使用。
 
  (2)信息和内容价值的视角(关注连接范围的是否全面)
 
  大数据产生信息的价值并不取决于其所产自的数据集的规模大小,而在于该数据集内容的丰富与否。用一架高分辨率摄像机对准一面空白墙面连续拍摄数周,也能产生PB级的数据,但其应用价值却极低,原因很简单:虽然其体量甚大,但其中所含信息内容却极度贫乏。无人驾驶汽车的研制之所以难度甚高,除需要处理的周边环境的信息量巨大外,还在于无法全部获取周围其它行驶车辆驾驶人员当前及将要采取措施的信息。
 
  此外,大数据的应用价值除了其内容的是否丰富以外,还取决于对本应用是否适用。阿里电商大数据可以用来分析宏观经济形势,却无法用来分析火星地表是否存在液态水,因为这些大数据内容虽然丰富,但却不包含任何有关火星方面的信息内容。
 
  因此,一个应用广泛的大数据,一定是一个内容十分丰富--换句话说,就是连接面十分广泛、全面--的数据集,与体量没有必然关系。就价值而言,连接比规模更重要。
 
  (3)行政决策和国家治理的视角(关注社会治理能力的提升)
 
  国家宏观经济形势、百姓的消费热点、民众对某一重大事件的反应、流行疾病的爆发预警乃至反恐维稳的目标锁定等等,这些涉及政府行政决策的信息,以及这些信息的全面、准确和及时,都是政府在国家治理层面迫切需要的。虽然这些信息大多也有一定的正规获取渠道(甚至设有专业部门负责),但种种原因导致了这些渠道所采集和汇集的信息往往或不精细、或不准确、或不完整、或不及时,使得国家行政决策因之而难以达到预期效果。改造完善这些渠道需要耗费大量成本和时间,于是在现有的、沉睡在各部门和企业系统中的业务数据中提取相关信息,以弥补现有信息渠道的各种不足,便成为信息获取的新途径和新思路。从目前业界所热传的所有大数据应用成功案例看,绝大部分属于人文社会领域,从一个侧面印证了大数据对于改善国家宏观治理的重要意义。有效开发互联网大数据应用,可以显着提升政府的国家治理能力和决策的科学性,这是许多国家政府和智库的共识。因此,不少发达国家纷纷制订本国的国家大数据战略【5】,我国也不例外。
 
  (4)简单的事实:所有大数据应用成果都是业务数据的副产品
 
  分析目前已有的大数据应用成功案例,可以发现一个事实:所有大数据应用的数据源,都来自于非专属于本应用目标的业务数据。换言之,所有大数据应用的数据来源,都不是专为本应用而特设的:啤酒和婴儿尿布的关联关系产自于对沃尔玛超市结算柜台的货品销售日志分析;阿里巴巴对2008年全球宏观经济形势的准确预测来源于对淘宝网采购单数量、规模和内容的变化、以及变化的地理分布特征分析;美国国家安全部门对恐怖分子的锁定,相当部分来自于对互联网巨头所掌握的电邮的内容分析,等等。原因很简单,由于成本或难度太高,人们不可能为了某项大数据应用而专门去采集原始数据。大数据应用大多只能使用那些已经存在的、非为本应用所特设的业务系统所积累的数据资源,且收集和维护这些数据的成本是由这些业务系统所属单位承担的。因此,大数据应用是业务数据的副产品。
 
  盖缘于此,大数据应用的数据源(即:合适的业务数据)的寻找,本身就是一个难题。
 
  1.3 大数据的辨识
 
  (1)从应用的视角观察大数据
 
  数据是服务于应用的,大数据也不例外。
 
  当一个新的应用出现,现有业务数据无法满足其数据需求时,必须寻找新的数据源。在寻找过程中,如果自行采集数据能够满足需求,且成本能够接受,则采取该方式是最好的选择,因为采集的过程和方法受需求者控制,所采集的数据最接近需求(如:十一五、十二五气象部门建设的全国天气雷达站网及遍布全国所有乡镇的地面自动气象站等)。而当自行采集的成本过于昂贵、以致无法承受时,选用替代数据便是将工作继续进行下去的唯一选择了。以往信息相对贫乏的年代,可供选择的合适的替代数据不多,许多工作因之而无法开展。互联网时代信息量暴增,替代数据的选择范围有了很大改善,使得许多过去无法开展的工作,现在有可能开展起来了。然而,由于这些替代数据自身不是因本需求而产生的,故不可避免地存在诸如:体量虽大但针对本需求所需的信息稀薄,信息质量不高、故难以得到确切结论,许多现象和结论难以解释等痼疾。于是,“是全体数据而不是样本数据、是模糊结论而不是精确结论、是相关关系而不是因果关系”的大数据的理念和方法由此产生。
 
  从应用的角度评价大数据,可以得出以下结论:
 
  虽然就数据血统而言,大数据在实际应用中往往不属于专为本应用采集的血统纯正的数据,但它的存在和被使用却是使得众多创新应用得以实现。因此大数据是资源。
 
  当今新的时代已经进入信息经济和知识经济的新时代,这是一个以信息和知识为基础的经济,是一个在更大程度上依赖于在生产、分配和使用等各个环节中知识和信息所作贡献的新的经济。因此大数据是新的生产力要素。
 
  (2)大数据的可能与不能
 
  大数据可能提供有价值的参考信息,包括:
 
  大数据可能为政府的科学决策提供有价值的参考信息。
 
  大数据可能对企业的业务改进提供数据支持和信息支持。
 
  大数据可能为一些社会科学领域的学科研究提供有价值的信息。
 
  大数据甚至有可能对自然科学研究中的一些新的科学机理的发现提供参考信息。
 
  与此同时,不能指望单靠大数据就能全面提高政府决策水平。因为决策依赖于多方面信息的综合,大数据只是提供信息的途径之一,仅靠它是无法解决政府决策的诸多问题的。高层决策主要面对的是诸多不确定性环境,需要广阔的视野与丰富的经验。深厚的历史背景、细微的地缘差异、复杂的宗教派系之争以及民族间的矛盾等等,这些因素交织在一起,关系复杂而头绪繁多,远非数据统计分析那样简单。大数据能够为行政决策提供一项或多项较为准确的参考信息,改善影响决策的信息的质量,但信息的综合和最终的决策必须依靠人。
 
  其次,大数据不可能直接解决科学机理问题。从大数据“模糊而非精确”、“只求相关而非探究因果”的理念可以看出,大数据只关注于现象之间的关联性,但不探究这些关联背后的因果关系,但求知其然,而不愿(甚至不屑)探究其所以然。之所以如此,是与大数据的理论构建者所固有的对世界的认知:“混乱构成了世界的本质,也构成了人脑的本质”的哲学观所决定的【4】。本文无意探讨哲学问题,但由此可以推断:就认识论而言,大数据属于经验主义范畴,它无法直接解决科学问题,尤其是以科学机理(即所谓因果关系)为核心的气象预报科学问题【6】。在气象理论研究领域,大数据可能的贡献在于提供参考信息(如:具有一定关联度的气象要素组合等),以供气象科学家们分析研究。
 

第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:pingxiaoli

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。