克服大数据集群的挑战

首页 > 数字政府 > 正文

2017-08-02 10:37:50 来源：企业网D1Net抢沙发

2017-08-02 10:37:50 来源：企业网D1Net

摘要：数据存储曾经是大数据的最大挑战。由于云计算基础设施的进步，存储数据不再是关键问题。如今，数据科学家所面临的最大问题是数据收集。
关键词：大数据集群

　　数据存储曾经是大数据的最大挑战。由于云计算基础设施的进步，存储数据不再是关键问题。如今，数据科学家所面临的最大问题是数据收集。

　　集群化使得大数据分析更容易。然而，集群也给数据工程师带来了必须解决的问题。

　　什么是数据集群?

　　数据集群的概念可追溯到至少20年前。美国俄亥俄州立大学计算机科学和工程系教授Anil Kumar Jain博士在他的白皮书之一中对这一术语进行了很好的描述：

　　“集群是模式(观察，数据项或特征向量)到组(集群)的无监督分类。集群问题在许多领域和许多学科的研究人员那里都得到了解决;这反映了其广泛的吸引力和实用性，作为探索性数据分析的步骤之一。然而，集群的组合是一个困难的问题，不同社区的假设和背景差异使得有用的通用概念和方法的传递变得缓慢。“

　　换句话说，数据工程师使用集群来识别原始数据中的趋势和模式。他们需要将其分解成群集。

　　数据集群的主要挑战是什么?

　　自从大数据的概念诞生以来，集群一直是一个挑战。这个问题源于数据量和处理限制。拉巴特大学列出了大数据集群的首要关注点。

　　(1)数量

　　大多数网络上存储的数据量呈指数级增长。随着数据量的增加，提取数据变得更加困难。备份数据也可能放大这些问题。

　　(2)速度

　　数据生成的速度是数据科学家面临的另一个集群挑战。这个问题不仅限于网络上的数据量。当网络以前所未有的速度生成新数据时，他们将很难实时地提取它。

　　造成的问题是双重的：

　　· 新的模式将不断地从已知的数据集涌现。数据分析师可能认为他们很难从数据中得出准确的结论，而事实上，他们的分析更能代表他们所建模的问题。他们可能不知道什么时候分析他们现有的数据集，以及何时等待收集更多的数据。

　　· 如果数据的创建速度比提取的它速度快，那么当他们试图收集数据时，趋势可能会发生变化。

　　随着网络使用物联网(IoT)从更多的设备收集数据，他们能够以更快的速度收集数据，问题将会越来越严重。

　　(3)品种

　　集群数据存储在许多不同的表单中，这使得很难进行精确的比较。有些数据以结构化格式存储，而其他数据集可能是完全非结构化的。

　　如何解决这些问题?

　　有各种各样的工具和策略可以简化抽取和分析集群数据的过程。

　　K均值集群

　　K均值集群方法是一种基于分组的解决方案，需要网络将对象分配给一个集群。这消除了单个对象可能通过出现在多个数据集中而偏离分析的担心。

　　无监督分类算法

　　无监督分类算法是基于预定义参数合并非常大的数据集的数据挖掘工具。这是处理日益增长的数据量的一个很好的解决方案，特别是使用强大的Hadoop工具。

　　COALA

　　COALA使用实例级约束来避免类似分组引起的问题。不需要满足100%的约束条件。

　　降低维度

　　每个数据有两个维度：

　　(1)变量。

　　(2)实例。

　　随着变量数量的增加，总数据量呈指数增长。可以通过使用降低维度策略(也就是所谓的降维变换)来缓解问题。

　　确定数据集群挑战的新解决方案

　　数据集群是解决存储大量结构化和非结构化数据所带来的许多问题的解决方案。然而，这不是一个可靠的解决方案，因为数据仍然需要尽可能快速准确地被访问和分析。幸运的是，有一些很好的工具和方法可以简化流程。

第三十五届CIO班招生
国际CIO认证培训
首席数据官（CDO）认证培训

责编：lixiaojiao

免责声明：本网站（http://www.ciotimes.com/）内容主要来自原创、合作媒体供稿和第三方投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
本网站刊载的所有内容（包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等）版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时，请及时通知本站，予以删除。