解读2015之大数据篇:大数据的黄金时代
解读2015之大数据篇:大数据的黄金时代
2016-01-13 14:08:53 来源:36大数据
抢沙发
2016-01-13 14:08:53 来源:36大数据
摘要:2015年,整个IT技术领域发生了许多深刻而又复杂的变化,InfoQ策划了“解读2015”年终技术盘点系列文章,希望能够给读者清晰地梳理出技术领域在这一年的发展变化,回顾过去,继续前行。
关键词:
大数据
技术发展
技术上,这一年来Apache Kylin主要在以下几个方面:
Fast Cubing
在现在的版本中,Cube的计算依赖MapReduce,并且需要多个步骤的MR Job来完成计算,且MR Job的多少和维度相关,越多的维度会带来更多的MR job。而每一次MR job的启停都需要等待集群调度,并且MR job之间的数据需要多次在HDFS落地和传输,从而导致消耗了大量的集群资源。为此我们引入了一种新的算法:Fast Cubing。一个MapReduce即可完成Cub的计算,测试结果表明整个Cubing的时间可以降低30~50%左右,网络传输可以下降5倍,这在超大规模数据集的计算上带来了客观的性能改进。
Streaming OLAP
Kylin作为一个预计算系统,不可避免的有着数据刷新延迟的限制,这在大部分用户案例中并不是问题,但随着业务和技术的发展,Streaming甚至Realtime的需求越来越高。2015年Kylin的主要发展都在Streaming OLAP上,为了支持低延迟的数据刷新,从整体的架构和设计上都做了相当大的重新设计,目前已经可以支持从Kafka读取数据并进行聚合计算的能力,同时提供SQL接口为前端客户端提供标准的访问接口,数据延迟已经可以做到分钟级别。
Spark Cubing
Spark作为MapReduce的一种替代方案一直在社区中被问及Kylin是否可以支持直接使用Spark来作为计算。为此我们在2015年下半年实现了同样算法的Spark Cubing引擎,目前还在测试中。
可插拔架构
为了更广泛的可扩展性,并支持如上各种新特性,Kylin在2.x的代码中引入了可插拔架构和设计,从而解决了对特定技术的依赖问题。在新的设计中,数据源可以从Hive,SparkSQL等各种SQL on Hadoop技术读取,并支持Kafka;在计算引擎方面,除了MapReduce方面的Fast Cubing外,实现了Spark Cubing,Streaming Cubing等多种计算框架,并为将来其他计算框架留下了扩展接口;在存储上,HBase目前依然是唯一的存储层,但在上层设计中已经很好的进行了抽象,很容易可以扩展到其他Key-Value系统。
第四十一届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:pingxiaoli
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。