首页 > 大数据 > 正文

数据挖掘与决策支持系统的关系

2010-07-13 17:12:15  来源:万方数据

摘要:本文介绍了数据挖掘的定义、目的、一般过程及与此相关的一些技术;论述了决策支持系统的定义及发展层次;最后分析了数据挖据与决策支持系统的联系与区别及当前市场数据挖掘工具产
关键词: BI

  1 决策支持系统
  决策支持系统(DSS)中“决策”就是决策者根据所掌握的信息为决策对象选择行为的思维过程。为决策者提供支持的信息成为决策支持信息,相应的信息系统称为决策支持系统,我们将决策支持领域分成OLTP、MIS、LDSS及HDSS四个层次:
  1.1 OLTP(联机事物处理)
  最基本的数据库应用系统,是更高级的MIS系统和DSS系统的基础,OLTP系统一般具有底层信息采集(数据录入功能)、一定的信息查询以及信息库更新维护功能,OLTP面向的是操作人员和低层管理人员,其主要功能在于对数据库中的信息进行录入、存储、更新、删除等操作,是最基本的管理细节信息的数据库应用系统。
  1.2 基于OLTP的MIS系统
  这是较高一级的数据库应用系统,这类系统在OUP的基础上进一步扩展,包括提高信息访问功能,报表生成能力等。MIS系统由若干个功能相对独立的OLTP系统集成而成,当前的信息服务系统基本属于MIS系统。
  1.3 LDSS(低级决策支持系统)
  LDSS处于比MIS更高一层的位置,直接为决策者提供决策支持服务,它的关键在于信息的有效提取并加以分析而不在于信息的收集与更新(这些操作由基础层的OLTP系统完成)。目前决策支持系统绝大部分属于LDSS的层次,它存在着如下功能局限:
  (1)随机性的综合信息提取功能较弱;
  (2)对查询得到的信息的分析功能较弱;
  (3)不是基于海量数据库。
  1.4 HDSS〔高级决策支持系统)
  HDSS是决策支持系统的最高形式,能够真正使用户利用DSS工具直接从企业信息池中随机地提取、分析数据,有效地服务于企业的全方位决策。它由三个主要部件构成:
  1.4.1 数据仓库技术(DW,Data Warehousing)
  进入90年代后,随着人们对信息需求的迅速增加,信息系统部门工作的重点已不局限于简单的数据收集,而是让整个企业内的人们能够充分利用这些数据,为此而提出的数据仓库化概念,越来越成为各行各业信息系统部门普遍关注的焦点。数据仓库技术是企业范围内数据的处理技术,它将这些分散的数据集中到一个更大的库中(称为数据仓库),最终用户从数据仓库中运行查询、制作报表,进行数据分析。数据仓库收集存储了各个不同数据源中的数据,通过数据的组织给决策支持者提供分布在整个企业内部、跨平台的数据。
  1.4.2 联机分析处理技术(OLAP,On-line Analytical Processing)
  这种技术能有效地集中分析和深入研究数据,发现趋势,看到异常情况,得到重要细节,大体可分为基于多维数据库的OLAP实现(MD-OLAP)和基于关系数据库的OLAP实现(ROLAP)。OLAP允许用户使用数据导航技术获取更详细的信息,可以使用户在一个数据集内进行“向上挖掘”、“向下挖掘”、“跨越挖掘”以及“切片和旋转”等功能。
  1.4.3 数据挖掘技术(DM,Data Mining)
  它能从大型数据中发现数据模式,预测趋势和行为,致力于知识的自动发现。一般认为数据挖掘是OLAP之后进行的步骤,它通过筛选数据获得未知的关系,而不是寻找已知的关系。它能帮助决策者寻找数据间潜在的关联,发现被忽略的要素,如“在某年某地区卖了多少机械”这就是OLAP,而“促使人们购买某种产品的原因是什么”,则是数据挖掘。虽然数据仓库、数据挖掘和OLAP技术最初是作为三种独立的信息处理技术出现的,但是,由于它们之间内在的联系和互补性,使得这三种技术在高级决策支持系统中已经成为一个密不可分的核心。
  2 数据挖掘
  数据挖掘是从大型数据库或数据仓库中发现并提取隐藏在其中的信息或知识的过程,目的是帮助分析人员寻找数据间潜在的关联,发现忽略的要素,而这些信息对预测趋势和决策行为是十分有用的,所以它属于决策支持系统的范畴。
  2.1 预处理数据
  通过消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如把连续值数据转换为离散型的数据,或是把离散型的数据转换为连续值数据)等来收集和净化来自数据源的信息,并加以存储,一般是将其存放在数据仓库中。
  2.2 模型搜索
  利用数据挖掘工具在数据中查找模型,这个搜寻过程可以由系统自动执行,自底向上搜寻原始事实以发现它们之间的某种联系,也可以加入用户交互过程,由分析人员主动发问,从上到下地找寻以验证假定的正确性,对于一个问题的搜寻过程可能用到许多工具,例如神经网络、基于规则的系统、基于实例的推理、机器学习、统计方法等。
  2.3 评价输出结果
  数据挖掘阶段发现出来的模式,经过用户或机器的评估,可能存在冗余、价值不大的或无关的模式,这时需要将其剔除,把重要的模式形成知识存储到知识库中,也有可能模式未能满足用户要求,这时则需要整个发现过程回到发现阶段之前,如重新选取数据、采用新的数据变换方法、设定新的数据挖掘参数值,甚至换一种挖掘算法。可见数据发掘的搜寻过程一般需要反复多次,因为当分析人员评价输出结果后,他们可能会形成一些新的问题或要求对某一方面作更精细的查询。
  2.4 生成最后的结果报告
  DM由于最终是面向人类用户的,因此可能要对发现的模式进行可视化,或者把结果转换为用户易懂的另一种表示。
  2.5 解释结果报告
  对结果进行解释,依据此结果采取相应的商业措施,这是一个人工过程。
  数据挖掘的相关技术:为了简化和加快数据挖掘过程,使数据挖掘真正方便、实用,还需其他的技术支持,如数据净化、数据仓库技术、强大的平行处理技术和存储技术。
  (1)数据净化(Data Scrubbing)。为了使数据挖掘能够产生合理的结果,数据在进入数据仓库以前必须清除错误,形成统一的格式,如用“1”和“0”代表性别,而不是用“male”、“female”、“man”、“woman”表示,这个过程可能用的很慢。此外,尽管有现成的软件可以辅助开发人员净化数据,将数据搬迁到数据仓库中,但开发人员还是要考虑数据如何表示、采用哪种格式等问题。数据净化过程的步骤,按顺序如下:a)检查拼写错误;b)去掉重复的记录;c)补上不完全的记录;d)解决不一致的记录;e)用测试查询来验证数据;f)根据验证结果反复迭代上述步骤。
  (2)数据仓库技术。一个企业在没有建立自己的数据仓库之前,有许多分散的、未集成的、不精练的信息,采掘这样的数据,效率是很低的。数据仓库技术是企业范围内数据的处理技术,它将这些分散的数据集中到一个更大的库中,为数据挖掘提供了有效的结构,有利于数据挖掘。
  (3)平行处理技术。毫无疑问,强大的平行处理计算机可以提高数据挖掘的应用,因为平行处理技术可以将一个复杂查询分解成多个子查询,每个子查询交给不同的处理器处理,这一处理过程是并行执行的,不像串行处理机,任务只能顺序执行。因此,并行处理技术可以大大加速数据挖掘的过程;反过来,人们对数据挖掘的兴趣也有助于并行系统的销售。
  (4)存储技术。现在的数据仓库存储的数据量是GB到TB级别,随着时间的推移,在未来五年,可能会达到几百个TB级,因此,廉价可行的存储技术对于数据挖掘来说变得非常重要。目前,普遍采用的是二级存储技术,即磁盘(磁光盘)-主存两级存储,由于缺乏快速的访问和存储磁盘的技术,随着存储容量的增长、数据挖掘查询越来越复杂以及并行处理器速度的加快,存储技术可能会成为数据挖掘的新瓶颈。
  3 数据挖掘与决策支持系统的联系及数据挖掘工具产品
  传统的DSS系统通常是在某个假设的前提下通过数据查询和分析来验证或否定这个假设,而数据挖掘技术则能够自动分析数据,进行归纳整理,从中发现潜在的模式,或产生联想,建立新的业务模型,帮助决策者调整市场策略,并找出正确的决策。例如在销售业数据库中,数据挖掘工具回答“哪些客户最可能对促销作出反应,为什么他会这样?”、“哪些商品之间具有潜在的联系?”、“下一个月,在天津的销售部门的情况将会如何?为什么?”等。而DSS系统回答“今年销售总量比去年多多少?从而预测明年销售总量”、“三月份中,在天津的销售部门的情况如何?从而推测在北京的销售部门情况”,所以,数据挖掘的出现使决策支持工具跨人了一个新阶段。
  数据挖掘技术能够帮助用户从历史性数据中挖掘知识,进而支持决策,极大地吸引用户,而用户造就的数十亿美元的市场又极大地吸引了数据库厂商,各大公司纷纷开始了自己的数据挖掘工具产品的研制工作。
  目前为数据挖掘所提供的主要工具有:联机分析处理(OLAP:On-Line Analytical Processing)工具及包含一些AI技术的工具,如IDIS(InformationD iscovery System)。OLAP描述的是一种多维数据服务(这里的“维”是指人们观察世界的角度,如时间、地域、业务等),这种服务的设计目的是保证分析员、经理和决策者针对特定问题,通过快速、一致、交互式的实时数据访问和分析,获得有创意的发现。目前,典型的产品有Pilot公司推出的Lightship产品,Oracle公司新近推出的Orcale Express系列产品,美国BusinessObjects公司于1996年推出的Business Miner产品。Business Miner产品是一个桌面式数据发掘工具,可在所有Windows平台(包括Windows95,Windows NT和Windows 3.x)上使用。


第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。