Google MapReduce：云计算背后的秘密

2010-11-29 20:23:36 来源：51cto抢沙发

2010-11-29 20:23:36 来源：51cto

摘要：在Google数据中心会有大规模数据需要处理，比如被网络爬虫（Web Crawler）抓取的大量网页等。由于这些数据很多都是PB级别，导致处理工作不得不尽可能的并行化。
关键词： Google 云计算

在Google数据中心会有大规模数据需要处理，比如被网络爬虫（Web Crawler）抓取的大量网页等。由于这些数据很多都是PB级别，导致处理工作不得不尽可能的并行化，而Google为了解决这个问题，引入了MapReduce这个分布式处理框架。本次云计算解密，就从这里开始。

技术概览

MapReduce本身源自于函数式语言，主要通过"Map（映射）"和"Reduce（化简）"这两个步骤来并行处理大规模的数据集。首先，Map会先对由很多独立元素组成的逻辑列表中的每一个元素进行指定的操作，且原始列表不会被更改，会创建多个新的列表来保存Map的处理结果。也就意味着，Map操作是高度并行的。当Map工作完成之后，系统会接着对新生成的多个列表进行清理（Shuffle）和排序，之后，会这些新创建的列表进行Reduce操作，也就是对一个列表中的元素根据Key值进行适当的合并。下图为MapReduce的运行机制：

图1. MapReduce的运行机制

接下来，将根据上图来举一个MapReduce的例子来帮助大家理解：比如，通过搜索引擎的爬虫（Spider）将海量的Web页面从互联网中抓取到本地的分布式文件系统中，然后索引系统将会对存储在这个分布式文件系统中海量的Web页面进行平行的Map处理，生成多个Key为URL，Value为html页面的键值对（Key-Value Map），接着，系统会对这些刚生成的键值对进行Shuffle（清理），之后，系统会通过Reduce操作来根据相同的key值（也就是URL）合并这些键值对。

优劣点

谈到MapReduce的优点，主要有两个方面：其一，通过MapReduce这个分布式处理框架，不仅能用于处理大规模数据，而且能将很多繁琐的细节隐藏起来，比如，自动并行化、负载均衡和灾备管理等，这样将极大地简化程序员的开发工作；其二，MapReduce的伸缩性非常好，也就是说，每增加一台服务器，其就能将差不多的计算能力接入到集群中，而过去的大多数分布式处理框架，在伸缩性方面都与MapReduce相差甚远。而 MapReduce最大的不足则在于，其不适应实时应用的需求，所以在Google最新的实时性很强的Caffeine搜索引擎中，MapReduce的主导地位已经被可用于实时处理Percolator系统所代替，其具体细节，将在本系列接下来的文章中进行介绍。

相关产品

除了Google内部使用的MapReduce之外，还有，由Lucene之父Doug Cutting领衔的Yahoo团队开发，Apache管理的MapReduce的开源版本Hadoop，而且一经推出，就受到业界极大的欢迎，并且衍生出HDFS、ZooKeeper、Hbase、Hive和Pig等系列产品。

实际用例

在实际的工作环境中，MapReduce这套分布式处理框架常用于分布式grep、分布式排序、Web访问日志分析、反向索引构建、文档聚类、机器学习、数据分析、基于统计的机器翻译和生成整个搜索引擎的索引等大规模数据处理工作，并且已经在很多国内知名的互联网公司内部得到极大地应用，比如百度和淘宝。

最后，如果大家对MapReduce感兴趣的话，可以到Hadoop的官方站点上下载并试用。

第三十六届CIO班招生
国际CIO认证培训
首席数据官（CDO）认证培训

责编：lyre

免责声明：本网站（http://www.ciotimes.com/）内容主要来自原创、合作媒体供稿和第三方投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
本网站刊载的所有内容（包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等）版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时，请及时通知本站，予以删除。