首页 > 大数据 > 正文

大数据的预处理、离散化要点讲解

2018-09-03 10:58:23  来源:CIO时代网

摘要:数据变换使用规范化、数据离散化和概念分层等方法使得数据的挖掘可以在多个抽象层上进行。数据变换操作是引导数据挖掘过程成功的附加预处理过程。
关键词: 大数据
\
  大数据预处理技术


  1.目前存在四种主流的数据预处理技术:数据清理、数据集成、数据规约和数据变换。

  2.数据处理的主要任务

  (1)数据处理的主要步骤:数据清理、数据集成、数据规约和数据变换。

  (2)数据清理例程通过填写缺失值、光滑噪声数据、识别或者删除离群点并且解决不一致性来“清理数据”。

  (3)数据集成过程将来自多个数据源的数据集成到一起。

  (4)数据规约的目的是得到数据集的简化表示。数据规约包括维规约和数值规约。

  (5)数据变换使用规范化、数据离散化和概念分层等方法使得数据的挖掘可以在多个抽象层上进行。数据变换操作是引导数据挖掘过程成功的附加预处理过程。

  3.数据清理

  (1)缺失值

  对于缺失值的处理一般是想法设法把它补上,或者干脆弃之不用。一般处理方法有:忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、使用属性的中心度量填充缺失值、使用与给定元组属同一类的所有样本的属性均值或中位数、使用最可能的值填充缺失值

  (2)噪声数据

  噪声是被测量变量的随机误差或方差。去除噪声、使数据“光滑”的技术:分箱、回归、离群点分析

  (3)数据清理的过程

  数据清理过程主要包括数据预处理、确定清理方法、校验清理方法、执行清理工具和数据归档。

  数据清理的原理是通过分析“脏数据”产生的原因和存在形式,利用现有的技术手段和方法去清理“脏数据”,将“脏数据”转化为满足数据质量或应用要求的数据,从而提高数据集的数据质量。

  数据分析主要有两种方法:数据派生和数据挖掘。

  数据集成

  1.实体识别

  2.冗余和相关分析

  冗余是数据集成的另一个重要问题。有些冗余是可以被相关分析检测到的,例如,数值属性,可以使用相关系数和协方差来评估一个属性随着另一个属性的变化。

  3.数据冲突的检测与处理

  数据变换与数据离散化(重点)

  1.数据变换的常用方法

  (1)中心化变换。中心化变换是一种坐标轴平移处理方法。

  (2)极差规格化变换。规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,且二者的差称为极差。

  (3)标准化变换。标准化变换是对变量的数值和量纲进行类似于规格化变换的一种数据处理方法。

  (4)对数变换。对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。对数变换的用途:使服从对数正态分布的资料正态化;将方差进行标准化;使曲线直线化,常用于曲线拟合。

  2.数据离散化

  数据离散化的目的:

  (1)算法需要。例如,决策树和朴素贝叶斯本身不能直接使用连续型变量

  (2)离散化可以有效克服数据中隐藏的缺陷,使模型结果更加稳定。

  (3)有利于对非线性关系进行诊断和描述。

  数据离散化的原则:

  (1)等距

  等距可以保持数据原有的分布,段落越多对数据原貌保持得越好。

  (2)等频

  等频处理则把数据变换成均匀分布,但其各段内观察值相同这一点是等距分割做不到的。

  (3)优化离散

  需要把自变量和目标变量联系起来考察。切分点是导致目标变量出现明显变化的折点。常用的检验指标有信息增益、基尼指数或WOE(要求目标变量是两元变量)。

  数据离散化方法:

  聚类

  决策树

  相关分析(ChiMerge)
第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:zhangxuefeng

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。