首页 > 大数据 > 正文

聚类分析的算法划分

2018-09-25 09:39:11  来源:大数据观察

摘要:聚类分析的算法可以分为划分的方法、层次的方法、基于密度的方法、基于网络的方法、基于模型的方法等,其中,前面两种方法最为常用。
关键词: 聚类分析
\
  聚类分析有一个通俗的解释和比喻,那就是“物以类聚,人以群分”。

  针对几个特定的业务指标,可以将观察对象的群体按照相似性和相异性进行不同群组的划分。

  经过划分后,每个群组内部各对象间的相似度会很高,而在不同群组之间的对象彼此间将具有很高的相异度。

  聚类分析的算法可以分为划分的方法、层次的方法、基于密度的方法、基于网络的方法、基于模型的方法等,其中,前面两种方法最为常用。

  对于划分的方法,当给定m个对象的数据集,以及希望生成的细分群体数量k后,即可采用这种方法将这些对象分成k组(k<=m),使得每个组内对象是相似的,而组间的对象是相异的。

  最常用的划分方法是K-Means方法,其具体原理是:首先,随机选择K个对象,并且所选择的每个对象都代表一个组的初始均值或初始的组中心值;

  对剩余的每个对象,根据其与各个组初始均值的距离,将它们分配给最近的小组;

  然后,重新计算每个小组新的均值;

  这个过程不断重复,直到所有的对象在K组分布中都找到离自己最近的组。

  层次的方法则是指依次让最相似的数据对象两两合并,这样不断地合并,最后就形成了一棵聚类树。

  聚类技术在数据分析和数据化运营中的主要用途表现在:既可以直接作为模型对观察对象进行群体划分,为业务方的精细化运营提供具体的细分依据和相应的运营方案建议,又可在数据处理阶段用作数据探索的工具,包括发现离群点、孤立点,数据降维的手段和方法,通过聚类发现数据间的深层次的关系等。
第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:zhangxuefeng

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。