【干货分享】中科院周园春：科学大数据

2016-05-11 11:56:20 来源：CIO时代网抢沙发

2016-05-11 11:56:20 来源：CIO时代网

摘要：2016年5月6日，“2016北大CIO中国行--武汉站”活动在武汉华中科技大学隆重举行。中科院网络中心科学大数据中心常务副主任周园春分享了题为《科学大数据》的主题演讲。
关键词： CIO 大数据

　　2016年5月6日，“2016北大CIO中国行--武汉站”活动在武汉华中科技大学隆重举行，作为2016年中国行活动的第四站，本次活动以教育科研行业的信息化与大数据应用为背景，活动主题为：数据共享，合作共赢。本次活动由中国新一代IT产业推进联盟主办，CIO时代网与希嘉教育承办，北大信息化与信息管理研究中心协办，专业云计算服务商UCloud冠名。与此同时本次活动还得到了希嘉教育、英维克、亿方云、全时等合作伙伴的支持。中科院网络中心科学大数据中心常务副主任周园春分享了题为《科学大数据》的主题演讲，以下为演讲实录：

　　各位专家下午好！非常高兴能有机会跟大家交流关于科学大数据相关工作，实际上真正大数据起源也是从科研领域开始，大数据数字化，网络化，带动整个数据产生的革命性变化，这个起源是科研研究。整个大数据现在互联网的发展比较快，但是真正科学数据其实也能产生商业价值，这里面典型价格就是美国的加州气候公司，基于气象，天气、降雨，地质土壤调查等海量科学数据，面向保险企业和农民提供，它本身的价值除外还有很大的商业价值。

　　科学“大”数据资源的特征与挑战

　　从挑战来说，科学大数据跟阿里和腾讯不一样，首先科研人员分散，科学家自己产生相应数据，不像阿里是封闭的，自有产生，而且是集中的，这些分散如何让大家分享这些数据。我们现在科学大数据里面更加明显就是它的格式多样，表格影像，还有视频文献，包括SQL数据等等这些数据，这些数据跟我们传统的是有很大不一样，因为它有更多类型的多样化或者异构化。同时这些数据是相互关联，比如说拿后面提到的例子，这个可能是由某个物体，某种基因而产生，这个是某个属性，某个物种，或者是跟环境相关，生态数据、基因数据都是关联，导致你研究某一类问题都要应用这个数据。所以这样带来问题是这些数据怎么关联，怎么整合，所以是共享发展的最大问题。这个是资源方面挑战，一个是相比其他数据资源，我们是分散，生产的数据，而且是分散持有的，同时是格式丰富，所以最关键数据在哪里，它不像淘宝的数据，科学数据在哪里都不知道。

　　科学“大”数据技术的特征与挑战

　　技术数据，比如说大数据技术存储，计算存储分离到计算存储融合，到现在有一些固态硬盘，包括海量的文件系统构建这样一个存储发展趋势，这是一个从存储角度。从大数据管理角度，从传统的关于数据库受限于它的整个存储价值，所以它对海量的数据很难做这个，后面到其他的里面的模式，又保证它的原本模式，现在出来了新的整合型的，从大数据处理技术来说，那就是合久必分，分久必合，我们关系查询，数组，矩阵，图数据，到现在某一个应用或者是某一类应用可能都会用到U处理，P处理，所以这个计算要整合，这是一个合久必分，分久必合的确实。大数据分析来说可以看出来传统数据分析有假设驱动，数据统计模型，指数分布，结构化分析。后面机器学习，数据驱动，混合模型，覆盖长尾效应，后面是类脑计算，这是它的整个流程。从这个公共的基础发展来看，延伸到科学大数据管理，科学大数据有生物，物理，化学，单一的无法来覆盖，关联中怎么来找到跨领域数据围绕某个主题所有的相应核心的，这是一个面临的挑战。从处理的挑战来说一样，那么现在这么多的可能摇杆处理模型，所以这些模型本身已经存在，或者未来结合很紧，如何利用互联网产生新的处理模型，比如说HDFS来做一些联合，因为它产生的架构怎么跟科研领域做结合，这是一个很大问题。从应用特征，现在淘宝也好，阿里也好，它明确的需求在哪，我希望把这个推荐，或者把我们淘宝生态系统做得更优，提供增值服务更加丰富，更加个性化。

　　科学“大”数据应用的特征与挑战

　　科研大数据应用在哪里，围绕这个数据在哪里，最后基于这个数据支持的科研发现又在哪里，所以这个可能跟我们传统大数据应用还有很大不一样，正因为这个可能要专注于在某个领域，如果是要基于大数据驱动的发现，在这里面要专，而且要精，而且这些领域不一定实现其他领域，是逐步适应的一个框架。我们从资源、技术、应用三个角度来探讨了在科学大数据跟传统的，或者跟现代互联网大数据相同点或者不同点。

　　科学“大”数据相关实践与探索

　　后面是我们的探索，86年开始，刚才陈处已经讲了科研信息化历程，86年开始一直到现在，从2001年开始真正按照每个五年的计划，所以十五，十一五，十二五，到后面麻烦进行的十三五。十一五是科学数据网格来实现，十二五形成这样整体架构，整个支持大数据分析是分布式的，目前52PB和2千多台服务器来支撑。这是我们在一个基础环境，后面我们大概分成四个方面介绍。

　　1、多源异构数据的管理、组织、集成和共享。

　　这些数据怎么找到，怎么共享，怎么集成。然后又同时能够实现数据整合，对外服务，实际上也碰到很多问题。一个是分地的数据库首先如何找到，找到发布在网上，发布完了才能找，然后发布之后这点有一个数据，那边有一个数据，发布之后怎么集成。武汉，天津，或者是北京，都有相应的科研机构产生的数据，那这些数据发布完了之后怎么去集成，怎么去做整合，最后他们之间可能相互关联，怎么提供统一的对外服务。

　　比如拿生物来说，武汉有生物的相关数，他们之间可能有相互关联的属性，怎么实现单独的整合服务，所以我们形成了这样一个总体的方案。实际上从下面来说，它本身是一个自制的，就是物理部占课题组发布，发布完了之后才有服务发现，最后支持对外服务共享。最终每一层的技术体系有支持科研人员自动化发布管理，集成。刚才我们说如何对现有数据库进行发布，形成这样的一些数据。然后怎么集成，还有一个怎么去搜索，怎么去发现这些数据，这些数据的共享情况和服务情况用相应工具。最终我们在十二五的时候达到这样一个资源服务能力，部署423建库单位，完成60TB以上关系型，文件型数据的Web化发布，累计9.44亿条记录，591.7万个文件。这是第一个在整个分布式数据资源如何发现管理集成的技术体系和对外的。

　　
第三十五届CIO班招生
 国际CIO认证培训
 首席数据官（CDO）认证培训

责编：pingxiaoli

免责声明：本网站（http://www.ciotimes.com/）内容主要来自原创、合作媒体供稿和第三方投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
本网站刊载的所有内容（包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等）版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时，请及时通知本站，予以删除。