大数据分析的4个核心概念

2018-11-06 09:27:05 来源：大数据观察抢沙发

2018-11-06 09:27:05 来源：大数据观察

摘要：K―平均算法是一种得到广泛应用的基于划分的聚类算法。其把M个对象分为N个簇，使得每个簇内具有较高的相似度。
关键词：大数据

　　K―平均算法

　　K―平均算法是一种得到广泛应用的基于划分的聚类算法。其把M个对象分为N个簇，使得每个簇内具有较高的相似度。

　　在应用该算法进行数据分析时，首先应输入包含M个对象的数据集A以及簇的数目N。从A中任意选择N个对象作为初始簇中心并且不断重复，随后计算出簇中对象的均值，将每个对象分配到最相似的簇并且不断更新簇均值，最后计算准则函数直到其不再发生变化为止。因为该算法的复杂度大约是0（nkt），所以该算法在处理大数据集时是相对可伸缩的和高效率的。

　　奇异值分解

　　假设A是一个m×n阶矩阵，其中的元素全部属于实数域或复数域。如此则存在一个分解使得A=U∑V*。其中U是m×m阶酉矩阵，Σ是半正定m×n阶对角矩阵，而V*是n×n阶酉矩阵的共轭转置矩阵。这样的分解就称为A的奇异值分解。

　　在MATLAB仿真软件中计算奇异值分解的函数式为：[b.c.d]=svd（x）

　　主成分分析（PCA算法）

　　从宏观上来说，主成分分析是指在研究一项变量较多的课题时，将这些变量通过线性变换而简化为几个重要变量的一种多元统计分析方法。而在数据分析领域，主成分分析的主要作用是对大规模的数据集进行分析与简化。其主要体现在降低数据集的维数，同时尽可能保持数据集中的对所研究的问题最有价值的特征。简而言之，就是保留低阶主成分，忽略高阶主成分。其具体方法是通过对协方差矩阵进行特征分解，从而得出数据的特征向量与特征值。主成分分析在数学上可以理解为一个正交化的线性变换，把数据整体变换到一个新的坐标系中，使得这一数据的任何投影的第一大方差在第一主成分上，第二大方差在第二主成分上，依次类推。

　　决策树学习

　　从广义上讲，决策树是一种运用图解法的概率分析，即在已知各种事件发生概率的基础上，通过构建决策树来探究期望值大于等于零的概率，同时判断可行性的决策分析方法。

　　决策树学习是数据分析领域常用的方法，其目的是构建一个模型来预测样本的目标值。一棵决策树的训练就是依据一个既定指标，将训练数据集分为几个子集并且在所产生的子集中不断重复此方法的过程，直到一个训练子集的类标都相同时为止。决策树主要有两种类型：分类树和回归树。其中分类树的输出是样本的类标，而回归树输出的是一个实数。决策树的优点体现在即可以处理数值型数据也可以处理类别型数据，并且适合处理大规模数据。

　　在不久的将来，多智时代一定会彻底走入我们的生活，有兴趣入行未来前沿产业的朋友，可以收藏多智时代，及时获取人工智能、大数据、云计算和物联网的入门知识和资讯信息，让我们一起携手，引领人工智能的未来。
第三十五届CIO班招生
国际CIO认证培训
首席数据官（CDO）认证培训

责编：zhangxuefeng

免责声明：本网站（http://www.ciotimes.com/）内容主要来自原创、合作媒体供稿和第三方投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
本网站刊载的所有内容（包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等）版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时，请及时通知本站，予以删除。