大数据革命正FAApache Hadoop为中心如火如荼的进行着。自从开源分布式数据处理平台在5年前发布时讨论之声就不绝于耳。但在过去的18个月中,Hadoop赢得了客户的认可。
亚马逊Web服务(AWS)于2009年4月2日引入了弹性MapReduce服务(EMR),让AWS成为基于云的Hadoop服务的祖父。EMR使用按需的EC2实例集群处理存储于S3或者DynamoDB中的数据。
Hadoop策略作为大数据时代下的“标配”技术,一方面客户的需求迫在眉睫,另一方面市场中越来越多的软件或者服务提供商都为用户提供了相应的解决方案。
大数据越来越火热,使得工具Hadoop也越来越受企业重视,从而新产品也把目标定在易于与Hadoop集成上。而且有的产品自称对Hadoop的不同版本有可扩展的连接性。
本文分析了Hadoop和Lexst的存储策略,Hadoop依靠HBase实现存储,HBase采用列存储方案,而Lexst主要面向商业领域的大数据存储。
文中介绍了在Hadoop MapReduce框架内严格使用基于硬件存储的DAS的一些替代方案。这样,我们依照三级模型来检测替代方案。
Hadoop技术逐渐成为企业(包括美国宇航局NASA、Twitter、Netflix等)管理大量数据的关键技术,这些企业也越来越依赖于这个开源分布式计算平台。
在这篇文章中,我们默认认为Hadoop环境已经由运维人员配置好直接可以使用。
小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。如果在HDFS中存储小文件,那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。
在讲座中,Milind Bhandarkar给与会者讲述了Hadoop一些最重要的参数的配置方法以及这些参数对系统的性能有何影响。