首页 > 大数据 > 正文

构建完备的气象数据管理体系

2017-01-29 08:26:31  来源:国家气象信息中心副总工程师 沈文海

摘要:完备的气象数据管理体系尚未真正建立起来,其中至少应当包括:数据架构管理、数据质量管理、数据操作管理、数据应用管理、主数据和参考数据管理以及数据治理等项关键性活动内容。
关键词: 气象 管理体系 数据
  1、引言

  如同预料的那样,附着并堆积在大数据身上的泡沫正在次第破裂,嘈杂喧嚣的舞曲正在渐近尾声,舞池中的人群已逐渐散去。尽管乐队又奏响了另一支新曲:人工智能,一些精力充沛长袖善舞者重新打起精神、跃跃欲试,但不少疲惫的人已开始厌倦了被业界的乱流涌去推来的被动。是时候平静下来,清理思路,盘算一下自己未来的工作走向和工作重点了。

  “大数据虚热”渐渐冷却了,但“数据”这个字眼已深深印在每个人的头脑中。数据是信息的载体之一。做为社会公益部门的、以信息服务为基本业务特征的气象部门,从诞生之日起便与数据有着生死与共的紧密关系,没有数据,气象工作的一切便无从谈起。气象部门的各色人等,每日在各自的岗位上的所说和所做,无不与数据相关。气象部门离不开数据,数据是维系气象部门生命的血液。

  数据是极端重要的,重要的东西更需要精心打理。面对着正在渐渐沉静下来的大数据潮汐,刚刚攀上礁石、喘息甫定的我们应该反躬自问:我们对数据真的十分珍惜吗?我们对视为血液的数据真的悉心打理(也就是全面科学地管理)了吗?我们对数据的管理水平真的如同我们对数据价值的认知那样相匹配吗?我们的数据管理手段、方法、制度以及相关能力真的已经基本完备,可以自豪地向世人展示我们骄人的成果了吗?我们的基于当前最新成就的数据管理体系果真建立起来了吗?

  笔者对此很难抱以乐观态度。

  2、气象数据管理体系的内涵

  就本质而言,气象数据管理既是一项职能,也是一种持续不断的活动。因而也就必然具备基本的目标和活动内容。

  2.1数据管理目标

  国际数据管理协会(DAMA国际)对数据管理的职能和目标已有覆盖面较为广泛、内容较为全面的定义1。参照其文,气象数据管理做为一项职能,其目标可分为战略性和非战略性两种,其中:

  2.1.1战略目标

  笔者认为,气象数据管理的战略目标大致可有以下几点:

  (1)理解气象部门及政府和社会等相关部门、团体、企业和个人对气象信息的需求。

  (2)获取、存储和保护气象数据,确保气象数据资产的完整性。

  (3)确保并不断提高气象数据和信息的质量,包括:数据的准确性、数据的完整性、数据的专业化整合和综合性整合、数据采集和获取的及时性、数据的相关性和实用性、被共同接受的明晰的数据定义等等。

  (4)确保气象数据的保密要求不被损坏。

  (5)确保气象数据和信息资产的有效利用和价值的最大化。

  2.1.2非战略目标

  (1)确保气象数据管理工作的各种努力与气象部门的战略和业务目标达到高度一致。

  (2)在气象部门内确保数据管理的一致性。

  (3)促进全部门对气象数据资产价值的更广泛和深入的理解。

  (4)控制气象数据的管理成本。

  鉴于上述内容皆属常识,故不再逐一阐释。

  2.2数据管理活动

  一系列完备的、有组织的专业化活动,是实现数据管理职能目标的具体措施和行动。DAMA国际将这些活动归纳为以下十一种2

  数据治理、数据架构管理、数据开发管理、数据操作管理、数据安全管理、参考数据和主数据管理、数据仓库和商务智能管理、文档和内容管理、元数据管理、数据质量管理、数据全生命周期管理,见下示意图:

\
  图1、做为职能的数据管理活动示意图

  气象部门有自己的特点,上述内容并非全部适用,很难也无必要全盘照搬。笔者将根据自己的研究和理解,在下一章里就其中若干对气象数据管理工作具有重要意义的活动予以介绍和分析。

  3、几个重要数据管理活动的解释和分析

  3.1数据操作管理

  所谓数据操作管理,就是对平常所说的对气象数据增、删、改、查等操作的规则的建立以及依据规范所进行的一系列相应管理活动。业界通常对这些操作动作的称谓分别为:数据建立(Create)、数据读取(Read)、数据更新(Update)和数据删除(Delete),亦即业界流行的缩写“CRUD”。

  数据操作管理的作用,一方面能够规范所有用户(包括管理人员)对气象数据的操作行为,另一方面亦能够规范所有用户的数据应用方式,从而使得各用户对气象数据的操作始终处在规范的、可管控的状态之中。

  此外,数据操作管理的派生作用,是使得数据管理者可以明确系统的核心数据由哪些系统产生,哪些系统有权限读取这些核心数据,以及这些核心数据的更新和删除权限属于哪些系统;从而便于采取措施保障气象核心数据的安全性和一致性。

  3.2数据质量管理

  业界公认的有关数据质量的内涵,主要包括数据的正确性、数据的一致性和数据的完整性等。

  气象业务对数据有着天然的依赖性和敏感性,因此气象部门对于气象数据的质量始终高度关注。

  3.2.1数据正确性管理

  气象数据的正确性(尤其是观测数据的正确性)关乎气象业务的工作质量,是气象部门最为重视的工作内容之一。而迄今为止气象部门对于数据正确性的管理,也主要聚焦在气象数据中的观探测数据范围;只不过不同的资料种类,其称谓各有不同:对传统的常规观测数据(如:地面观测、高空观测)而言,通常的正确性判定和处理工作是“质量控制”和“质量评估”3、4;而对于气象卫星和天气雷达等近三十年方才开始使用的新型遥感资料,其数据的正确性处理工作的称谓则更具专业性,如天气雷达数据的“杂波处理”、气象卫星数据的“资料定位”等。气象部门已有一整套较为完整的方案,一旦观测数据出现正确性问题,相应的处理方案和处理动作皆有章可循。

  然而对于观测数据之外的那些气象数据(或虽尚未纳入气象数据范围,但对气象工作有重要影响的数据,如系统/设备状态数据、台站元数据等),相应的正确性管理规则和方案却并未确立,因而在这方面存在正确性管理的缺失。

  3.2.2数据一致性管理

  气象部门的数据一致性管理主要分两个方面:

  (1)同一数据在各不同数据库之间的数据一致性问题。这方面的问题可通过数据库之间的数据同步等技术手段予以解决。此前因疏于统摄管理,气象部门内曾一度数据库系统林立,实现全部门的数据库之间的数据同步十分困难(尤其是异构数据库之间)。随着CIMISS1.0的逐步推广和业务化,这种情况正在好转。

  需要注意的是,通过这种同步技术达到全局一致性的数据的种类目前并不多,尚不能涵盖所有气象数据(甚至不能涵盖所有气象观测数据),不少重要气象数据目前并未实现部门内的数据一致性,这种现象已经在阻碍气象数据工作质量的提高。

  (2)数据集在时间序列上存在阶段性系统偏差的问题。该问题产生的原因主要可归结为观测设备的更新换代以及观测站点地理位置的搬迁;而相应的订正方法和订正技术相对成熟、工作较为卓有成效的资料领域主要集中在地面观测数据的长时间序列方面,即:已为气象界所熟知的“资料均一性检验和订正”工作5。至于高空探测、气象卫星遥感等其它探测资料的一致性管理工作,目前尚未以明确的主题(数据一致性)、明确的目标(达到相关资料在时间序列上的一致性)而正式开展(即便是相关的研究工作)。

  3.2.3数据完整性管理

  如同正确性、一致性管理一样,气象数据的完整性管理目前的关注点亦集中在观测数据领域。而观测业务规定,为了确保观测数据的客观性,对于那些因缺测而导致观测数据在时间序列和观测要素方面出现的不完整现象,一般不采取通过补测而达到资料完整性的做法。因此,因缺测而导致的气象观测数据序列的不完整性,是无法弥补的。而由于传输线路或处理系统故障、导致观测数据在传输过程中发生的资料不完整情况,则气象信息系统在通信、前处理、入库、归档等各个环节上均有相应的监控和补调手段,以确保已采集到的观测数据能够完整地获取并最终纳入管理范畴。

  大数据时代,除气象专业观测数据等行业大数据外,那些气象互联网大数据6的应用也开始纳入气象业务部门的策划之中。针对这些产生于互联网、价值稀薄且正确性一致性难以确保的、体量巨大的庞然大数据,是否需要对其进行完整性管理以及如何管理,对于气象数据管理者而言都是一个新命题。

  2014年以来,随着信息化工作在气象部门的深度展开,人们开始意识到,除气象观探测数据以及气象服务数据产品之外,原本与气象业务、科研和管理工作有着千丝万缕联系、但却始终未能纳入“气象数据”范畴的一些数据,如:设备状态数据、系统状态数据、人事/财务/项目管理……等数据,也需要尽快纳入气象数据的范畴,并对其进行相应的质量管理。单就资料完整性而言,目前的项目大清查工作中,就多次出现因历史遗留项目的文档出现缺失、而相关人员已经离岗离职,从而导致项目清理工作难以推进的情况。令人遗憾的是,目前这些已达成共识的、应当尽快开展的工作,至今尚未真正地开展起来。

  3.3数据开发管理

  顾名思义,数据开发管理就是在气象应用系统开发过程中对数据进行的一系列管理,其中的重要内容有“数据需求管理”和“数据应用管理”。

  3.3.1数据需求管理

  所谓数据需求管理,是指该正待开发的气象应用系统对于数据的需求,以及现有数据对该系统需求的满足程度的情况分析以及解决措施,这些分析包括:数据的种类、数据的具体要素、数据的质量、数据的时空密度、数据的供给时效,以及一旦目前现有数据条件无法满足时的替代数据和方案等。

  由于此前气象部门对于气象数据的范围定义以及质量管理的关注度主要集中在气象观测资料方面,因而对于“预报”和“服务”这两大业务领域而言,因其相应的应用系统的数据需求主体是气象观探测数据和服务产品数据,从而使得这两部分业务应用系统的数据在需求满足度方面始终受到高度关注并予以最大限度的业务保障。其中即便出现资料种类及时空密度的一时无法满足,管理部门也会调集各种力量,通过项目建设、系统开发、观测业务规则改进等途径予以尽快解决。

  随着信息化工作的深入,业务的精细化管理开始被决策层所接受。对于始终与数据打交道、所有业务系统都无一例外地属于典型的信息系统的气象部门而言,精细化管理首先需要落实到对业务系统(亦即“信息系统”)的整体管控,而整体管控的前提是对各管控对象(也就是业务系统和基础设备)状态的实时掌控。此时人们方才愕然发现,那些反映信息系统状态的信息和数据,既没有被纳入到气象数据的管理范畴之中,更没有相应的业务规范在采集、传输、处理和保管等方面的业务保障,其中甚至包括做为三大核心业务之一的气象探测系统中的一些系统和设备。精细化管理因此而难以贯彻实施并落地。所以,是数据需求的无法满足造成相应监控系统的难以建立、以及整体管控功能实现过程的长期难产。

  3.3.2数据应用管理

  数据应用管理是指在应用系统设计和研发过程中,对该系统的数据应用方式应当尽可能遵守既定规范标准的规范化管理工作。主要有以下几个方面:

  (1)数据源模型规范的遵从

  数据源模型是指满足该在建应用系统数据需求的所有数据源的数据模型。对一种数据而言,其数据模型一旦确立,相应的应用方式便随之而基本确定。因此数据模型及数据接口的设计非常重要,它应当兼具简单、易用、普适等诸多特点。而数据模型确立后,后续开发的应用系统不应毫不顾及已有的数据源模型而另起炉灶,各自设计符合自己使用习惯的各种数据源模型和应用方式,因为这将导致同一种数据源的多种数据模型的共同存在,从而导致数据源管理的复杂和混乱。以现已业务化的CIMISS1.0为例,其中的地面小时观测数据目前便有关系型数据库表格、MICAPS格式、CIPAS格式三种数据模型共同存在,而这一现象无疑加重了CIMISS系统的复杂度和管理的困难。虽然这种现象在产生之初均有其不可抗拒的理由(如:系统的性能问题、原有应用方式的适用性问题等),但一旦这些理由随着CIMISS系统新版本的升级而消失,这种多重数据模型在同一系统中共同存在的现象便理应逐步予以消除。

  因此,除非存在不可抗拒的且短时间无法解决的原因,否则新建应用系统不应在现有数据源模型之外另行设计新的数据源模型。

  (2)数据产品模型规范的遵从

  一个应用系统所产生的数据产品,往往是其下游应用系统的数据源。与“数据源模型规范的遵从”一样,新建应用系统在确定数据产品的数据模型方面,也应尽可能遵从已有的数据模型规范和标准。除非有不可抗拒且短时无法解决的理由,否则其产生的数据产品不可随意设计新的数据模型。

  (3)数据流程规范的遵从

  局部效率最优化的累加未见得导致整体效率的最优,这在实践中不乏例证;对数据流程而言也是如此。上下游两个业务节点之间数据的私相授受,在局部固然可达到数据传输效率的最高,但随着业务节点数量的增加,整个业务系统的数据流数目将会以业务节点数量的指数倍规模递增7,从而导致系统整体的数据流程空前复杂,大大降低系统整体运行和管理的效率。

  当业务节点未发生变化时,业务流程是不会变更的(因此“业务流程再造”的前提必然是业务节点的变更和重组)。但数据流程完全不必亦步亦趋地遵从业务流程的路径,而应当以达到总体效率最高为原则进行整体规划设计。因此对一个相对复杂的业务系统而言,最优化的数据流程设计是必需的。

  最优化的数据流程一旦确立,后续研发的应用系统必须遵从既有的数据流程规范,不可以自己局部效率最高为由,擅自更改已有的数据流程,否则将导致系统因数据流程复杂度的逐步增加而变得难以控制和管理。

  3.4主数据和参考数据管理

  3.4.1概念

  (1)主数据

  所谓“主数据”,就是指那些对其拥有者而言最为珍贵的,被不同业务、科研及管理活动反复使用的,价值最高的且一旦丢失便无法补偿的关键型数据。

  业界有人将主数据的判识标准定义为“部门内系统之间共享的数据”,以使用者的多寡程度做为判识标准,具有一定的合理性和可操作性,可供参考。

  依笔者浅见,气象数据中的地面观测数据(尤其是国家基准站和基本站观测数据)因其使用的广泛性、以及生命周期的永久性,无疑当归于主数据之列。而数值预报产品则由于其可再生性,似不应视其为主数据。总之,气象数据中主数据的界定是一项专业性很强的工作,限于篇幅,此话题留待以后专题讨论。

  气象主数据需要在气象部门内保持完全一致。

  (2)参考数据

  “参考数据”就是那些增加数据可读性的数据,亦即通常所说的“数据字典”。如:对表驱码GRIB2、BUFR中各数据段、各要素代码的解释,对MICAPS24种数据格式的解释文本等。

  如果这些数据字典仅存在于个别系统而没有在全部门内统一管理,一些无法得到数据字典的用户便可能因不能完整理解相关数据,因而无法使用这些数据,从而可能从一个侧面间接造成数据孤岛。

  所以,气象参考数据在部门内应当统一管理、全面共享并保持高度一致。

  3.4.2主数据和参考数据的意义

  之所以将一个部门或企业的全体数据划分为主数据、参考数据和一般数据,是为了识别各类数据在部门内外的使用价值,以便对不同价值的数据采取不同的管理策略和技术手段,在确保数据使用价值最大化的前提下,尽可能减少数据的管理成本。因此虽然主数据、参考数据等相关概念提出的时间并不长,但却迅速被许多企业和单位所接受,并有效运用在本部门(或企业)的数据管理之中。

  数年前,中国气象局相关职能部门曾发文,就在线数据的管理时限提出规定8。这在某种意义上既可视为对相关数据在其生命周期某个阶段的管理措施,也可视为一种原始的、无意识的主数据/一般数据的管理——虽然这种管理范围狭小而且方法简单。

  3.4.3关于主数据管理

  数据的价值一旦判定,对于价值最高的“主数据”的特殊管理,便是部门决策层(特别是数据管理者们)需要认真对待的话题。这一话题是如此的重要,以至于在数据管理领域中专门形成了一门“主数据管理”科目,以深入探讨主数据的管理方法,以及主数据管理水平的衡量标准,即所谓“主数据管理成熟度模型”。鉴于这方面的话题已有专著详述9、10,本文不再深入讨论。

  总之,关于主数据的管理,业界已有一套较为完备、标准的方法论和评判尺度。DAMA国际也已将其纳入“数据管理成熟度”的评判内容之一11

  3.5数据架构管理

  在一些人眼中,“数据架构”是一个十分神秘的字眼。其实它就是有关数据构成、数据形态和数据分布等信息内容的一种组合12,主要包括:数据的定义、数据的建模和数据的分布。

  3.5.1数据的定义

  所谓数据定义,就是对企业内的所有数据进行分类,并对每类数据的构成进行进一步确定,直至明确到每一个数据元素。如:按照2006年颁布的气象数据分类与编码规范,气象数据由地面观测、高空探测、海洋观测、雷达探测……等十四大类数据构成13,而每类数据又由若干种数据构成,如地面观测类数据便是由:地面逐小时观测、地面自动站分钟降水观测、地面自动站分钟压温湿风地温观测……等种类的资料而构成。再进一步,地面逐小时观测数据又是由:观测站站号、观测时间、观测要素值(气压、干/湿球温度、风向/风速、地表及各层土壤温度、……)等构成,如此等等。

  数据定义的目的,是明确气象数据的范围、类别和具体内容,使人们对气象数据有一个完整而又准确的概念和界定。

  3.5.2数据的建模

  数据只有被使用才能体现出其价值,而使用数据的前提之一是必须明了该数据的存在形态,亦即:必须明了被使用的数据是结构化数据、还是非结构化数据抑或是半结构化数据,该数据是以数据库表的形式存储,还是以表驱码、文本文件、二进制文件等形式存在,以及该数据中的各个数据元素(即:气象要素数据)所处的具体位置和数据单位等等。完整地获得了这些信息,该数据便能够被使用了。而这些信息的全体,构成了数据模型的全部内容。

  所以,数据建模就是对数据存在形态的设计和具体构建。

  而一旦一种数据完成了数据建模,则其具体的应用方式便也随之而被确定下来。不同的数据模型,决定不同的数据使用方式:以地面小时观测数据为例,以数据库表形式存储于Oracle数据库中,与以表驱码netCDF格式以及以MICAPS文本格式存储于文件系统之中,三者的使用方式之间存在着相当大的差别。因此,数据的模型决定了该数据的使用方式。而现有数据模型的不适用,也往往是导致同一套数据在同一个数据库中存在多种数据模型的致命理由——虽然这将导致该存储系统内数据的大量冗余以及管理复杂度的大大增加。

  所以,数据的建模非常重要,理想的数据模型应该具有非冗余、稳定、普适、易用等特征。

  3.5.3数据的分布

  数据的分布有业务分布和系统分布两种,其中:

  (1)数据的业务分布

  指各类、各种数据在业务中的使用分布情况。从业务的视角出发,数据的业务分布是指各个业务系统各自分别使用的数据的总图谱。而从数据的视角出发,数据的业务分布则是指每类、每种数据被哪些业务系统所使用的总图谱。如:地面小时观测数据既被天气预报业务中的强天气预报、台风预报、农业气象预报等专业业务所使用,也被气候预测、气候诊断、气候灾害评估等气候专业业务所使用,甚至还被专业气象服务以及气象卫星遥感产品处理等业务所使用。而天气雷达数据的业务分布则主要局限在天气预报业务及气象服务业务之中,气候预测业务中极少使用。

  数据的业务分布的梳理,有助于厘清各类、各种数据的业务使用范围,从而使得这些数据的管理方案和服务方式更具有针对性,效果也更加良好。

  (2)数据的系统分布

  由于技术的限制,有时对于一套相对复杂的业务体系,单一的一套综合性数据库难以全面满足对整个业务体系的数据服务,此时需要另设若干专题数据库,每个专题数据库负责一定的业务范围,这些各自负责一个具体服务方向的专题库的全体共同承担起对全系统的数据服务支撑。

  所有这些专题库、以及这些专题库各自服务的业务对象(即业务系统),就是数据的系统分布。

  所以,数据的系统分布就是所有数据库在业务支撑方面的分布情况及对业务支撑情况的总体综合。

  显而易见,数据库的数量越多,数据管理的复杂度也就越高。因此对于数据库系统分布的管理和控制,有助于在业务需求的满足与管理的便捷性方面达到最佳的平衡状态。

  数据架构的建立和管理对于构建完备的气象数据管理体系是极端重要的。早在2003年,当时的中国气象局领导和职能部门就希望建立起能够实时监控所有国家级乃至全部门业务系统运行状态的实时业务监控系统,以便整体把控全部门的业务运行。十余年过去了,该系统至今迟迟建立不起来。究其原因,并非有关单位和人员不努力,而是由于气象数据定义范围的不完整,导致系统和设备状态数据至今未能纳入业务管理范围。状态信息的不规范、不完整和无保障,使得监控系统的设计和建设无从下手。此外,数据的业务分布始终没有进行全面的梳理和分析,没有人(以及文档)能够说清各类气象数据各自支持了哪些业务系统,以及支持过程中相关的要素、频度和时效需求。这导致了即便监控系统建立起来,一旦出现数据链故障,监控系统也无法达到快速判定故障波及范围以及故障严重程度的评估,起不到精细化管理的作用。

  所以,气象数据架构的梳理、分析、补充完善甚至重构的工作需要尽快展开。

  3.6数据治理

  “治理”是与问题相伴共生的,出现了问题,且用常规技术手段无法解决,于是便有了从更高的层面,在分析和梳理问题根源的基础上,通过制定规范、设定岗位和明确职责等方式,以治理的形式达到问题的解决。社会领域出了问题有“社会治理”,而数据领域出了问题,便有“数据治理”(DataGovernance)。因此,数据治理并不是一个新生事物,有数据的地方就存在数据治理。

  数据治理至今尚无被业界广泛接受的定义,依笔者的观点,所有为提高气象数据质量和数据应用效率/效益/效能而展开的业务、技术和管理活动,都属于气象数据治理的范畴。

  3.6.1为什么要进行数据治理

  从上文中我们已经了解到,气象数据在应用和管理过程中存在着诸多问题,如:

  (1)数据的定义不完整

  从上文可知,因事业的发展和工作的需要,过去形成的对气象数据的定义已不完整,一些过去不被重视、但现在对工作却十分重要的数据因未被纳入气象数据的范围,从而缺乏相应的规范标准和业务保障,导致与之相关的各项工作的推进十分困难。因此必须尽快修订和完善气象数据的定义。

  (2)多重数据模型的同时存在

  由于历史原因,同一种数据以多种数据模型的形式在同一个数据库系统中同时存在的现象相当普遍,导致数据库管理的复杂度居高不下。当这些数据模型存在的理由因技术升级换代而消失后,必须适时对这种现象予以逐步消除。

  (3)数据流程的不规范

  基于最优化原则的、规范的数据流程尚未建立起来——即便是在国家级业务系统和业务部门之间也是如此。许多业务系统仍采用上下游数据私相授受的“短路”方式,数据流程的复杂和难以管理并未因CIMISS1.0的业务化而得到根本解决。需要尽快设计出相关的符合最优化原则的数据流程,并从顶层采用行政手段予以强力推行。

  (4)数据质量依然问题很多

  许多重要数据尚未纳入质量管理的范围,气象数据质量管理缺乏总体规划和较为详实可行的实施方案。以台站信息表为例,做为CIMISS1.0重要元数据的地面测站信息表,常与省局的相关信息出现偏差。究其原因,是这些元数据的采集途径既不规范亦无业务保障。这种情况并非个案,需要通过管理手段予以全面的调整和改进。

  (5)系统重复建设,数据大量冗余

  CIMISS1.0现已业务化,但虽然CIMISS1.0无论是数据内容、还是服务手段/方式以及服务时效均已充分满足需求,一些单位仍以各种理由回避使用CIMISS,坚持保留其在各方面与CIMISS都难以匹敌的数据库系统,导致同质数据库的重复存在、数据的大量冗余、维护成本的大量浪费。这种现象必须通过行政手段予以制止。

  ——还可列出更多的原因,限于篇幅,不再枚举。

  需要注意的是,上述所有这些问题都不单纯是技术问题,也是用技术手段无法根本解决的,需要进行综合的气象数据治理。

  3.6.2数据治理的概念和目标

  (1)概念

  数据治理体系是指从组织架构、管理制度、操作规范、IT应用技术、绩效考核支持等多个维度对组织的数据模型、数据架构、数据质量、数据安全、数据生命周期等各方面进行全面的梳理、建设以及持续改进的体系。因此,数据治理是一种关于数据的体系建设和这一体系的持续运行。

  (2)目标

  数据治理的目标是提高数据的质量(准确性和完整性),保证数据的安全性(保密性、完整性及可用性),实现数据资源在各单位、部门和系统间的充分共享,优化数据流程,推进信息资源的整合、对接和共享,确保关于数据各项措施的实际效果与气象事业发展战略目标高度一致,提升气象部门的信息化水平,最大限度的发挥气象数据的价值和作用,提高数据的使用效率,降低数据的维护管理成本。

  3.6.3数据治理体系框架

  (1)战略

  数据治理是在气象事业发展战略和规划的指导下进行实施的,这些战略和规划包括业务发展目标、IT规划以及数据治理相关的发展规划。

  (2)机制

  机制是数据治理工作实施的基础保障,通过组织、制度、流程的建设和执行得以落实。机制是数据治理工作的重点,数据治理执行效果就是机制落实的实际效果。

  (3)专题

  数据治理专题是指气象数据治理的各项具体工作内容,根据“3.6.1”节的分析,气象部门的数据治理专题至少包括数据定义的修订补充、数据建模设计、数据业务分布梳理、在建应用系统数据需求分析及数据应用规范遵从、数据流程规范遵从、数据库内数据冗余治理、同质化数据库整合、主数据界定和管理、数据生命周期管理策略和CIMISS的实际业务应用等多个方面。

  (4)实施

  数据治理工作最终需要在相关制度、规范和流程下通过数据治理组织、借助技术手段和管理手段来予以实现。

  2015年以来,气象部门已陆续成立了信息化领导小组、工作组和信息化办公室,以及相应的一系列专题性的工作分支机构。但针对气象数据治理则既没有成立相关组织机构,也没有有意识、有组织地推进这方面的相关工作。气象数据治理工作的重要意义尚未被有关人士所意识和认知,这种现象令人忧虑,因为数据治理工作的开展与否,关系到气象数据管理工作被动局面的能否尽快扭转。笔者衷心希望这种现象能够尽快改变。

  鉴于有关数据治理工作已有多部专著予以详尽阐述14、15,限于篇幅,本文不再深入讨论。

  其它一些显然也很重要的数据管理活动,如:数据全生命周期管理、数据安全管理等,气象部门对其已有较为统一而完整的认知,并也已采取程度不等的相应措施。限于篇幅,不再赘述。

  4、架构的重要意义

  4.1企业架构的基本内容和概念

  如同一幢建筑物一定会有由地基、承重墙(柱)为主体构成的完整框架一样,一个部门或企业也一定有其自身的体系架构,以构成这个企业的整体,业界称其为“企业架构”。企业架构的实质,是对该部门或企业从宏观到微观、从整体到局部的多层次、多视角的描述。它反映了该部门或企业的业务构成及业务流程、支撑各业务的应用系统构成、支撑全体业务和应用的数据构成、以及所采用的技术构成和组织设置及安排。是对该部门或企业关键型业务、应用、数据和技术的整体性描述。

  企业架构分为:业务架构、应用架构、数据架构和技术架构,见下示意图。

\
  图2、企业架构示意图

  4.1.1业务架构

  一个部门的业务架构,就是这个部门业务构成的由宏观到微观的详尽的条理化描述。如:气象部门的业务主要由观测、预报和服务三部分构成,而观测业务又由地面观测、高空观测、天气雷达观测、气象卫星观测、大气成分观测、农业气象观测等等若干种专业气象观测构成。预报业务则由天气预报、气候预测两部分专业业务构成,细分下去,天气预报专业业务又可分为:强天气预报、台风预报、农业气象预报、数值天气预报、……数个专业方向;气候预测专业业务亦可类似细分,见下示意图:

\
  图3、气象业务架构示意图

  业务架构的梳理和全景展示,有助于展现该部门的战略意图以及实现路径。抽象地说,业务架构是对该部门战略规划和业务规划的实际描述,并通过制定业务策略、业务机制和业务流程来解决部门内的业务布局以及各业务之间的关系16。气象部门的业务架构是基于气象事业发展战略的,它决定了气象部门内各业务单位及业务系统的运转方式。同时它建立了气象发展战略与日常业务活动之间的关联关系,是连接发展战略与具体项目实施的桥梁,即:通过气象业务架构的支持,达到气象事业发展战略中预先设定的战略目标17

  4.1.2应用架构

  通俗地讲,应用架构就是支撑某项专业业务的具体应用系统的构成,因此应用架构总是与其所支撑的具体业务相关联的。以CIMISS系统的地面观测数据入库前处理业务为例,针对不同的观测数据种类,其入库前处理的具体应用系统有:地面小时观测报解码、地面自动站分钟雨量观测报解码、地面自动站分钟压温湿风地温观测报解码、高空探测报解码等等,见下示意图:

\
  图4、数据入库前处理应用架构示意图

  可见,应用架构就是其所支撑业务的业务功能具体实现的实体构成,是对实现业务能力、支撑业务发展的应用功能有条理性的描述18。良好的应用架构,应当具有业务前瞻性、应用的规范和功能的可复用性、适应并促进部门内系统的整合和平台化、以及具有适度的松耦合等特点。

  4.1.3数据架构

  数据架构在上文“3.5数据架构管理”中已有概要解释,不再赘述。

  4.1.4技术架构

  简言之,技术架构就是所有应用架构所采用的技术平台、技术组件的总和,是支持数据架构和应用架构的IT运行环境,它主要描述业务系统、应用系统和数据系统所依托的基础设施、基础平台和专业平台的能力。

  良好的技术架构,应当具有安全、可靠、灵活、易扩展、易维护、支持业务连续性等特点。

  上述特点的达到并非易事,以目前中国气象局国省两级业务、应用及数据的技术构成为例,支撑数据库系统的基础平台,有:Oracle、SQLsever、Mysql、欧冠虚谷、Cassendre、……,支撑人机交互界面的GIS平台有:arcGIS、Mapinfo、超图、……,等等。由于在技术平台选择方面的无规则可寻,使得应用系统研发者们往往根据自身的知识范围和技术偏好,选择最为得心应有的技术方案,从而使得全部门各地在同类应用功能开发方面经常出现彼此技术平台和技术方案存在巨大差异,形成的应用系统因技术差异而彼此画地为牢,形成技术孤岛,技术难以互通、成果无法共享,继而导致部门内大量的重复开发、低水平重复建设,开发和维护成本常年居高不下。

  所以,要想真正推动信息化工作在气象部门的广泛深入开展,以信息化推动气象现代化,气象部门良好的技术架构设计,以及为推广贯彻技术架构而采取的一系列IT治理工作,是无论如何绕不开的。

  至于企业架构中四种专业架构之间的关系,下图可予清晰展示,不再赘述。

\
  图5、四种架构之间的关系示意图19

  需要注意的是,业界亦有将应用架构、数据架构和技术架构统称为IT架构,从而将企业架构的内容简单分为“业务架构”和“IT架构”两种的做法。这种以突出信息技术为主要动机的架构分法颇有相当规模的接受群体。

  4.2架构的重要意义

  如同一个人一定有头脑、躯干和四肢一样,一个组织的架构一定是存在的,关键在于组织的管理者能否全面、清晰地明了本组织的架构,并根据发展规划和战略意图,通过对组织架构的梳理、规划、修订和完善,利用顶层设计贯彻发展战略意图。对于管理者而言,不了解本组织的架构,便如同盲人摸象,无法有效地行使管理职责、贯彻管理意图。而另一方面,架构又具有战略层面的能动性,通过对本组织业务、应用、数据和技术架构的梳理、分析、规划和最终确立,可从顶层的高度部署并贯彻组织发展的战略意图。

  业界一些成功利用架构规划来贯彻发展意图的企业,都是先从企业的发展战略出发去梳理本企业的业务架构,然后进一步分析和规划相应的应用架构、数据架构和技术架构,通过对企业架构的分析,将企业的业务战略、业务流程紧密结合起来,为企业描绘一个业务、应用、信息、技术有机互动的蓝图。20

  有效的企业架构对一个组织或部门的生存和发展具有决定性的作用。良好的企业架构能够为组织带来重要的业务效益:

  业务的设立、布局和部署更加符合组织的发展战略。

  组织的运营更加具有灵活性和敏捷性,效率、效益和效能能够达到更高的水准。

  组织内的监管更加全面有效,组织的核心竞争力进一步增强,能够更加敏捷地适应环境的变化、满足社会和市场需求。

  遗憾的是,对气象部门而言,全面的、横向到边纵向到底的架构梳理工作至今尚未进行,尤其是应用架构、数据架构和技术架构。这一极其重要工作的缺失,使得专职信息化管理和工作者由于缺乏业务、应用、数据和技术等方面的全景信息,而常年处于某种懵懂状态,发出的指令无法精准,监管措施也难以到位,许多原本具有重要意义的工作难以贯彻实施,抑或最终流于形式。

  对于气象部门的信息化工作而言,不完成部门内业务、应用、数据和技术架构的全面梳理,便无法掌握全面的完整的信息,相关指导工作便难以有的放矢,预期的效果也难以达到。因此,若想深入推进信息化工作、贯彻和推广智慧气象理念,气象部门全面的架构梳理工作势在必行、无法回避。

  至于气象部门的架构规划,是建立在架构梳理和分析基础之上的战略规划工作。这是职能部门的庄严责任,非笔者所能妄言。

  5、构建完备的气象数据管理体系

  5.1现状概析

  笔者不揣冒昧,根据上文分析,尝试着对几个重要的数据管理活动在气象部门的成熟度做了尽可能乐观的定量评估,结果见下图:

\
  图6、气象数据管理重要活动成熟度评估(参考)

  由此图可见,气象部门在数据管理方面存在许多短板、缺失和遗漏,实在没有理由乐观甚至自豪。我们还有很长的路需要走、很多的工作需要补做、很多的方面需要涉及。我们的基于当前最新成果的气象数据管理体系,并没有真正建立起来。

  5.2构建气象数据管理体系的基本要素

  既然已经明了气象数据管理的短板所在,接下来的工作,就是如何修补短板、亡羊补牢。依笔者的看法,至少有以下工作需要依次展开:

  (1)数据架构梳理与规划

  数据架构是气象数据管理工作的基础,数据架构不清晰、不完整,气象数据管理工作是无论如何无法做到位的。因此气象数据架构的全面梳理工作必须先行。

  在梳理数据架构的基础上,依照业务发展战略,对现有数据架构进行深入分析,适度修订完善气象数据定义,以普适、易用和最优化等原则设计数据模型,并将需要调整、归并和取消的数据模型陆续纳入数据治理的工作清单之中。

  依照数据的业务分布,按照满足业务需求与数据管理便捷双赢的策略,规划设计数据的系统分布。

  (2)数据开发管理的坚决贯彻

  尽快制定数据开发管理的相应规范和制度,并坚决贯彻实施,从源头上阻截使数据管理复杂度继续增加的一切源头。

  制定相应规则,对新开发的应用系统,在可研阶段必须完成对数据需求满足度的详尽分析。对那些无法满足数据需求的应用系统,在可研阶段就应当一票否决。

  对那些已有的不遵从数据源模型规范、数据产品模型规范以及数据流程规范的应用系统,应悉数纳入数据治理的范畴,按问题的严重程度、与周边应用系统关联的复杂度以及治理的难易度,对其逐一进行治理。

  (3)数据治理工作的循序展开

  数据治理工作不开展,气象数据领域中的问题便无法解决。本质上讲,数据治理工作是一项以制度建设、岗位设置和行政管理为主要手段的数据管理活动,以管理的方式达到诸多数据问题的根本解决。

  数据治理的执行者需要赋予相当的权力和职责,因此气象部门的数据治理工作无疑是专职信息化工作者当务之急而且义不容辞的责任。至于数据治理的方法,上文已有概述,不再赘言。

  (4)基于主数据界定的数据全生命周期管理

  面对浩如烟海的气象数据,如何抓住重点,有计划、有针对性并且符合实际情况地予以高效管理,是引进主数据概念的原因之一。在厘清气象数据业务分布的基础上,根据数据使用价值的高低,分别确定各种气象数据的主数据、一般数据和参考数据的各自归属,并按照其各自生命周期的使用特点制定相应的存储管理策略。以期在数据应用价值最大化的前提下,尽可能降低数据管理的成本。

  (5)数据操作管理的进一步加强

  虽然对于气象数据CRUD的操作有一整套较为严格的规范,但违规现象仍时有发生。因此数据操作管理工作仍需进一步加强。通过强化用户权限的管控、标准数据应用接口在业务应用中的普及和应用,进一步强化数据操作管理,规范用户的数据操作行为。

  (6)数据质量管理的丰富和完善

  在延续并继续加强现有工作的基础上,依照需求的紧迫程度,循序拓宽需要进行正确性检控和处理的气象数据的种类,开展相应的技术研究,探讨相应的技术方法,并在技术基本成熟时尽快形成业务能力。

  进一步修订业务规范,完善气象数据完整性管理的各项规定、业务岗位及相应职责。

  通过数据治理工作,逐步减少同质数据库的数量,以及数据库内的数据冗余现象,实现部门内气象主数据的完全一致,气象参考数据的高度一致,以及一般数据的基本一致。

  (7)构建基于风险评估的数据安全管理体系

  对气象部门而言,数据安全不是一个孤立话题,应当将其融入到气象部门整体安全的体系之中,在气象部门信息安全体系之下予以统一设计和管理。按照“基于风险评估安全体系”的基本思想,针对主数据、参考数据和一般数据,以及各数据所处生命周期的不同阶段,制定相应的数据安全策略,予以有针对性的、符合整体策略的安全管理,在全面满足数据安全要求的前提下,收到事半功倍的实际效果。

  如果上述工作在具有较强前瞻性的、完整的规划和有条理的安排下循序进行并取得预期成效,那么我们有理由认为,气象部门的较为完备的数据管理体系已经基本建立起来了。

  6、结语

  数据的重要性,在气象部门是尽人皆知的。如果气象数据的管理体系建立不起来,数据管理漏洞和短板长期存在并且不断扩大,气象工作便如同在沙滩上建造房屋一样,始终被如同幽灵般的数据基础问题所缠绕。因此,建立完备的气象数据管理体系,是夯实气象事业工作基础的战略性工作。虽然这项工作繁琐而又平凡,很难博得掌声和鲜花,如同航母巨舰的轮机舱一样,永远位于甲板之下;但越来越多的人都深知,一旦缺少它,庞大的舰队就无法航行,远在彼岸的目标就永远无法达到。

  但愿气象部门的数据管理体系能够尽快建立起来,但愿数据管理工作在气象部门受到更多的而且是应有的关注和支持。

【参考文献】

  1 DAMA国际:《DAMA数据管理知识体系指南》,马欢、刘晨等译,清华大学出版社,2012年7月,第一版。

  2 DAMA国际:《DAMA数据管理知识体系指南》,马欢、刘晨等译,清华大学出版社,2012年7月,第一版。

  3 刘小宁、任芝花。2005,地面气象资料质量控制方法研究概述。气象科技[J].33(3):199-203.

  4 任芝花、熊安元。2007,地面自动站观测资料三级质量控制业务系统的研制。气象[J].33(1):19-24.

  5 李庆祥。2011.气候资料均一性研究导论。北京:气象出版社。

  6 沈文海。2016.再析气象大数据及其应用,中国信息化。2016.1。

  7 高复先:《信息资源规划》,清华大学出版社,2002年4月,第一版。

  8 中国气象局:中国气象局关于印发《气象数据存储管理办法(试行)》的通知,气发〔2013〕73号。

  9 赵飞:《基于全生命周期的主数据管理:MDM详解与实践》,清华大学出版社,2015年1月,第一版。

     10 和秩东等:《SAP、MDM主数据管理》,清华大学出版社,2013年5月,第一版。

     11 DAMA国际:《DAMA数据管理知识体系指南》,马欢、刘晨等译,清华大学出版社,2012年7月,第一版。

  12 王飞:《数据架构与商业智能》,机械工业出版社,2015年6月,第一版。

  13 QX/T102-2009气象资料分类与编码,http://www.zbgb.org/99/StandardDetail878774.htm

  14 赵兴峰:《企业数据化管理变革——数据治理与统筹方案》,电子工业出版社,2016年8月第一版。

  15 张绍华等:《大数据治理与服务》,上海科学技术出版社,2016年1月第一版。

  16 王飞:《数据架构与商业智能》,机械工业出版社,2015年6月,第一版。

  17 王飞:《数据架构与商业智能》,机械工业出版社,2015年6月,第一版。

  18 王飞:《数据架构与商业智能》,机械工业出版社,2015年6月,第一版。

  19 此图参考了lichaogang的博文:“企业架构——集中架构的构成”,http://blog.sina.com.cn/s/blog_539e5cba0100fobf.html

  20 王飞:《数据架构与商业智能》,机械工业出版社,2015年6月,第一版。
第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:houlimin

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。