大数据是否可重复数据删除？

2011-07-13 10:18:10 来源：至顶网抢沙发

2011-07-13 10:18:10 来源：至顶网

摘要：重复数据删除数据的结果是提高缓存利用率，而降低磁盘I/O。重复数据删除可用于任何规模的数据；只是目前大多数重复数据删除产品还不能处理大容量的数据，但这并不意味着不能实现。
关键词：大数据

　　我们所谈论的“文本”大数据，如日志或者从不同的来源（如网络、信贷机构、Facebook）收集的信息，它们都是高度可压缩的。事实上，大多数数据仓库产品都是基于column的压缩，以达到较高的重复数据删除比率和提高性能。毕竟，最快的I/O是你不必实现的I/O。

　　重复数据删除数据的结果是提高缓存利用率，而降低磁盘I/O。重复数据删除可用于任何规模的数据；只是目前大多数重复数据删除产品还不能处理大容量的数据，但这并不意味着不能实现。

　　当我们从整体存储角度来考虑，而不仅仅是从专业数据库的角度考虑时，Rob Peglar对于元数据的担忧就是有道理的。但也有许多的解决方法。

　　微软曾在名为“ChunkStash”的技术研究中提出了一种减少重复数据删除对RAM需求的方法。这种方法在RAM中仅为每个记录分配2个字节。

　　而复制节点之间的元数据问题可由初创厂商Scality提供的方法来解决，它使用DHT（Distributed Hash Tables）来处理元数据的分布。这与P2P（端对端）系统处理PB级规模数据所使用的技术是一样的。

　　从性能的角度来看，Scality并没有Isilon高效，但它提供了一种可能解决该问题的方法。

　　NetApp采用的方法和Isilon的方法一样“高性能”，而且是以更加简单的方式来解决这个问题，它并没有重复删除元数据的复制。重复数据删除在单个节点上实现，而集群更加智能于聚合同类型的文件。这对性能和重复数据删除都更加有利。

　　而诸如Vertica和Greenplum的数据库也得益于数据的位置。它们并不使用全局重复数据删除，却获得了可观的压缩比。

　　由戴尔收购的压缩/重复数据删除厂商Ocarina曾展示过如何从意外的文件（比如图像和视频）获得更好压缩率的方法。该方法可以用于像石油和天然气这样的行业，它们的数据曾长期被认为是不可能达到良好的压缩率。

　　许多其他厂商处理数据的方法可能会获得更高的压缩率。来自IBM的Jesse Jonas曾介绍了如何堆积数据的方法，这是一种非常不错的数据精简算法。

　　压缩和重复数据删除将在大数据中起到举足轻重的作用；这一切都将关于与经济。正如Steve Duplessie所指出的那样，下一代存储之争将围绕着经济所展开。如果你的系统相比竞争供应商的系统需要更多数据级的存储，那么你就难以去竞争。

第三十四届CIO班招生
国际CIO认证培训
首席数据官（CDO）认证培训

责编：qwenf

免责声明：本网站（http://www.ciotimes.com/）内容主要来自原创、合作媒体供稿和第三方投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
本网站刊载的所有内容（包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等）版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时，请及时通知本站，予以删除。