首页 > 大数据 > 正文

Hadoop/Spark生态圈里的新气象

2016-02-18 15:05:15  来源:云头条

摘要:Hadoop绝对没有消亡,不过我确信,知名研究机构Gartner的下一篇文章会这么认为。但Hadoop绝不再是原来的Hadoop。现在你需要知道这个新的Hadoop Spark生态圈里面有什么。
关键词: 大数据
 
  我宁愿遗忘的技术

       下面是我会很高兴地扔到窗外的技术。我之所以这么任性,是因为已出现了更出色地执行同一功能的新技术。
 
  Oozie:在去年的All Things Open大会上,来自Cloudera的Ricky Saltzer为Oozie辩护,说它适用于原本旨在处理的任务――也就是把几个MapReduce任务串连起来;人们对于Oozie颇为不满是要求过高。我仍要说,Oozie一无是处。
 
  不妨举例说明:隐藏错误,功能不是失灵就是与文档描述的不一样、XML错误方面的说明文档完全不正确、支离破碎的验证器,不一而足。Oozie完全自吹自擂。它写得很差劲;要是哪里出了问题,连基本的任务都会变成需要一周才搞得定。由于Nifi及其他工具取而代之,我没指望会大量使用Oozie。
 
  MapReduce:Hadoop的这个处理核心在渐行渐远。DAG算法可以更有效地利用资源。Spark使用更好的API在内存中处理数据。由于内存变得越来越便宜,向云计算迁移的步伐加快,支持继续使用MapReduce的成本原因渐渐站不住脚。
 
  Tez:从某种程度上说,Tez是条没人走的路――或者说是分布式计算这棵进化树上早已过时的分支。与Spark一样,它也是一种DAG算法,不过有个开发人员称之为是汇编语言。
 
  与MapReduce一样,使用Tez的成本原因(磁盘与内存)渐渐站不住脚。继续使用它的主要原因是:面向一些流行Hadoop工具的Spark 绑定不太成熟,或者根本就没有准备好。然而,由于Hortonworks加入了向Spark靠拢的阵营,Tez到年底之前似乎不太可能有一席之地。要是你现在不知道Tez,也不用心烦。
 
  现在是大好时机

       Hadoop/Spark领域在不断变化。尽管存在一些碎片化现象,不过随着围绕Spark的生态圈日益稳固,核心会变得稳定得多。
 
  下一大增长点将来自治理和技术的应用,以及让云计算化(cloudification)和容器化更容易管理、更简单的工具。这类进步给错过第一波热潮的厂商带来了大好机会。
 
  如果你还没有采用大数据技术,眼下正是趁机进入的大好时机。发展太快了,啥时行动永远不会太晚。同时,主攻遗留MPP立方数据分析平台的厂商应该作好被颠覆的准备。

第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:pingxiaoli

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。