董艳:新一代数据融合共享技术与平台——填平信息孤岛、创新数据价值

2016-11-21 14:56:01  来源:CIO时代网

摘要:2016年11月17日下午,由中国新一代IT产业推进联盟主办、CIO时代学院承办的“第六期央企CIO论坛”在什刹海会馆顺利举行,就新一代信息技术应用和转型变革两大方面进行深入交流。北大软件所特聘研究员、全国三八红旗手董艳在论坛中发表了精彩演讲。
关键词: 数据 转型
  2016年11月17日下午,由中国新一代IT产业推进联盟主办、CIO时代学院承办的“第六期央企CIO论坛”在什刹海会馆顺利举行,就新一代信息技术应用和转型变革两大方面进行深入交流。北大软件所特聘研究员、全国三八红旗手董艳在论坛中发表了精彩演讲。

  以下为演讲实录:

  尊敬的各位央企CIO,下午好!我是北京大学软件所的研究员,同时也是北京大学软件所大数据共享融合技术产学研转换基地、北京因特睿软件公司的一个代表。非常荣幸有这样的机会向大家汇报一下这方面的工作。

\
北大软件所特聘研究员、全国三八红旗手 董艳

  我的汇报主要包括三个方面:一是机遇与挑战,分析一下在互联网+、大数据时代,尤其是信息化建设主要遇到的困难和问题。二是从技术层面,来给大家汇报北京大学研究所在这方面的技术创新和突破。三是根据实践的应用,展示一下具体的技术在应用过程当中取得的成果。

  机遇与挑战

  作为企业的CIO,负责的是信息化建设。信息化建设过程中,主要遇到的问题有两大类:

  第一是集成问题。在企业中,由于历史的原因,在不同时期肯定会有研制的一些系统,这些系统可能要进行集成,集成要通过数据集成和业务集成,最后形成应用集成,这是集成的问题。数据便是集成中的一个基础问题。

  第二是决策问题。数据集成后要做的是为辅助决策来进行支撑,在决策过程中首先要进行流程优化的再造,流程优化再造需要很多数据提供支持,进而分析出哪些流程需要优化,如何进行优化,还可通过数据和算法来支持风险的评估和预测。所以数据是所有问题的关键。数据的开采及开放共享也是我们所关注的。无论是集成问题还是决策问题,数据都是一个最重要的基础。

  目前,对数据开放而言面临很大的挑战:

  第一,数据孤岛。在企业中有很多数据是工业数据,一些是业务数据,还有一些是互联网数据,这些数据是由不同的技术团队进行开发和使用的,它本身是一个封闭的系统。数据要进行开放,需要原有团队和源代码的支持才能实现。

  第二,多源异构数据融合。系统中的数据都是异构的,格式、开发框架、语义、关联关系均不同,有的数据无法保证它的来源,评价方式也不同,这些都是数据开放面临的一些主要问题。

  第三,数据共享监管溯源。传统的数据集成和整合方式,是从数据层面来做的。比如从中间,定义一些中间表来进行数据比对,形成一些数据的关联关系,可以通过自定义方式或定义标准来协同这些数据,也可以用服务总线对数据进行整合。但在整合过程中,都需要源代码或原开发团队将数据库、数据库表、数据字典开放。不开放代码、没有数据库支持,是无法获得的。

  传统的方法在整合数据时会遇到协调困境,梳理、清洗会遇到很大的麻烦。如今不断有新的系统和数据产生,通过制定稳定的标准来实现数据的交互是不可能的。让开发商不断的配合开发代码,帮助大家进行数据集成,也会带来诸多麻烦。在实际操作过程中肯定会遇到网络爬虫、 ETL倒库、网络抓包等问题。如网络爬虫,只能爬虫到网页上的一些数据,事实上对CS系统的数据是爬不出来的。能否找到一种新的方法来适应不断产生的新型数据呢?

  技术创新与突破

  众所周知,软件所是以软件工程而闻名的研究单位。从面向对象和基于软件的构建、面向服务来看,这种技术已研究的很透彻了,并有以下创新和突破:

  第一,燕云DAAS数据接口生成平台。在2000年时,软件所的院士曾提出基于网构软件的一种软件开发和运行的新模态,即将互联网中的所有资源当做一种构件,作为未来开发新软件功能的一种资源。把这些资源合理利用起来,通过它们之间消息协同演化,形成一种新的软件服务态势。理想的办法是把所有的软件和系统都进行API化。通过API的抽取把所有底层的功能抽取,进行标准封装,统一管理,通过API的调用、继承和复用来支持功能的扩展和系统的交互协作。因此目标就锁定了,把网络上已有的系统进行开放,通过功能进行抽取变成API,把API放在共享的运行平台上,利用平台进行支持。支持它的分析和API的组装重构,重构新应用来满足新的应用需求。

  综上,研究所研究了如何把数据接口进行自动生成,这样不需要开发商开发源码,也不需要底层数据库数据字典的开放,便可自动生成数据接口。数据接口的自动生成是基于运营时体系结构的重构技术,通过机器学习,实现智能的内存分析、行为分析和体系结构反射重建,快速声称和抓取出系统数据访问接口并按用户制定的标准以API形式进行封装。将应用系统运行过程中的特征进行提取,通过体系结构重建的模型,将运行的系统重建出三层结构图--视图、控制、模型。把抽取出的视图里的代码函数模块形成API发布,这样便可在原系统源代码和数据库未知的情况下,通过表现层把数据访问接口进行生成。因此,这个方法颠覆了传统信息孤岛资源开放的思路。

  通过所见即所得的方法,在不破坏原系统安全体系,也不改变原有系统的外部行为的情况下,可以快速安全地实现业务数据访问接口的重建,为数据集成和融合提供了新的模式。通过这种方法可以从表现层进到语义清晰、明确信息精准的一些信息来生成它的数据API。通过这个API就可以源源不断地把原有系统中的数据读取出来。

  第二,燕云DAAS数据共享交互平台。数据共享交互平台不仅可以实现数据的读取,还可实现数据的交互。它生成的接口不仅能读还能写,同时写到指定的一个系统里。它的实现方法是通过系统接口与共享交互的逻辑和交互情境的上下文建立一个模型,将这个模型封装成一种微服务,然后部署在运行引擎上面的一个容器里,通过引擎的驱动便可以实现两个系统间共享同步数据的交互。

  因为API都是接口,交互时可通过控制这个接口,许可它的权限访问,在许可的情况下同步写入到另一个系统中,这样支持系统集成及业务流程的重构,会是一个很方便的平台。同时它可在资源共享时,将传统建的数据共享平台实现实时交互。

  第三:燕云DAAS大数据计算分析平台。平台将所有网络硬件资源作为一个统一协调管理的点,然后通过虚拟化内存式的计算引擎,将计算资源进行合理布局,分布到虚拟的集群上。其中内置了很多算法,通过算法实现大数据的按需建模和按需获取,获得分析的大数据源,从而实现大数据关联分析和趋势预测。

  平台的主要特点是突破了传统数仓的概念。原来进行数据分析时,要建立数据仓库,而现在利用平台,就不再需要建立数据库。平台会按你的模型,分析问题的需要,通过API接口,把需要的数据不断地抓到它的内存空间里,空间中有一个内存调度的算法,多个计算机进行计算,从而支持大数据的分析。平台不仅有丰富的学习算法而且提供了即查即用的算法模型扩展槽,可不断地扩展里面内部的模型,提高平台的使用效率。大数据分析的过程实际上是建模的过程,边建模边分析,通过循环交互的方式不断改善分析的问题,提供更好、更科学的计算。

  第四,燕云DAAS大数据网构软件资源构件库。采用基于数据令牌的数据接口溯源、在线监管及可信性度量和评估。采用基于数据令牌的数据接口溯源、在线监管、可信性度量和评估等技术,通过对数据接口构建池的管理,支持API封装、API调用、API集成和多态、API融合,实现数据接口的再封装、自动推荐和个性化访问。通过在线交付、云端编译、动态分析、持续演化等手段,为网构软件资源提供一种可信的服务,从而形成这些软件的API,以及服务运行等一系列的生态环境。

  利用以上四种技术构建,形成一个自底向上的数据融合的共享平台体系。通过燕云DAAS接口生成平台,将原有的系统分散在网络上的各个孤岛式系统,从而形成数据访问接口系统、API的资源,通过燕云DAAS运行平台实现数据的访问及系统之间的共享交互。在运行平台上,燕云DAAS计算分析平台还为大数据的分析与辅助决策提供开放的支撑环境,在这里进行建模、运行和分析。同时为这些软件API提供支持,支持系统的拓展,开发新的应用系统,不断地补充到系统中。燕云DAAS运行平台体系,就像电力系统里的电网,它把数据源源不断地抓取出来,通过网络上的一些功能,把这些数据进行重建、重组、重生,构建出开放、共享、融合的数据生态链。

  应用和展望

  从2013年开始进行产学研的转换,到今年年初开始陆续投入真正的使用。到目前为止已为一门式、网格、智慧城市、公检法、不动产、教育等行业提供了支持,帮助它们进行数据提取、数据接口的生成及系统的集成等项目。

  案例一

  在2015年时,开始支持神州数码智慧城市的项目。在未使用我们的技术前,一个项目通常6-12个月才能完成对行政服务数据的提取,采用我们的技术后,一天内可以生成15个政务数据服务的API。

  案例二

  对于不动产登记,9个人4个月未提取数据,我们7个人就完成了两个不动产数据的提取,使它的开放时间成本从数月变成了数天。从页面表现层对数据进行抽取,数据含义清晰,数据清洗和融合就变得容易多了。提取的数据基本不需要清洗,因为表现层表现出的数据是精准和明确的,读取又遵循原有系统,保障了原有系统的安全性,使原有系统资源的提取和利用更加方便。

  案例三

  在深圳坪山和武汉桥口支持“一号一窗一网建设”,坪山系统涉及到横纵30度个单位,需要对接的事项超过300项。这项复杂的工程我们6个人2个月的时间将接口生成。不用协调委办局,无需开发商配合,就能实现数据接口的生成。

  案例四

  最近,我们支持贵州大数据共享平台的建设。原来的共享平台设计方法是用传统方法构建大数据的数据池和数据仓库。在构建过程当中,已对接了17个,但还有22个委办局的数据未接入。在了解我们技术后,主动邀请我们参与,现在我们已经帮把总体方案写完,并通过评审,下一步就是具体落地,将另外22个委办局数据放到大数据共享平台里。

  目前,我们做的工作主要是在政府部门支持智慧城市和“一号一窗一网”项目,但在央企我们还没有很好的一些事例,也想通过这次介绍找到一些好的合作伙伴或合适的契机,让我们在大家的信息化建设里面发挥作用。

  谢谢大家!
第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:zhangxuefeng

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。