首页 > 大数据 > 正文

商业智能技术及行业应用分析

2012-11-30 16:35:42  来源:互联网

摘要:W.H.Inmon是这样对数据仓库定义的“数据仓库是面向主题的、集成的、时变的、非易失的数据集合,用于管理决策指定过程”。
关键词: 商业智能 数据仓库

    引言


    BI(Business Inteligent,商业智能)是随着Internet的高速发展和企业信息化的不断深入而产生的。BI使得企业的决策者能够对企业信息进行有效、合理地分析和处理,为生产决策提供可靠的依据。学术界对BI有不同的定义:Data Wareho MseInstitute组织认为“BI是将数据转换成知识并将知识应用到商业行为上的一个过程列”;Gartner Group则认为“BI是将数据转换成信息的过程,然后通过发现将信息转化为知识”。图1展示了BI在商业中的应用。确切地讲,BI并不是一项新技术,它将数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)等技术与客户关系管理(CRM)结合起来应用于商业活动实际过程当中,实现了技术服务于决策的目的。

  图1 BI在商业中的应用

    图1 BI在商业中的应用


    1 数据仓库、OLAP技术及行业应用分析


    1.1 数据仓库与OLAP技术


    数据仓库是实现商业智能的数据基础,是企业长期事务数据的准确汇总。W.H.Inmon是这样对数据仓库定义的“数据仓库是面向主题的、集成的、时变的、非易失的数据集合,用于管理决策指定过程”。其中面向主题指DW集中在高级的商业实体,如:产品,客户,销售,财政收入等;集成指数据仓库中的数据以一致的格式存储;时变指数据项与时间点有关;非易失指数据存入数据仓库后不再变化。数据仓库的产生是信息化建设的结果,主要是由于历史数据的不断积累,而且决策者需要的信息往往保存在多个不同的数据库系统中;就粮食行业来说,从90年代初就开始进行行业的信息化建设,尤其是近两年,信息管理系统大范围地得到应用,使得粮食行业的基础数据迅速递增,但是由于管理不规范、数据不一致、网络不健全等因素使得粮食行业的决策管理部门无法从大量的数据中发现和提取隐含的、重要的、用于决策的信息;这主要是由于用户的决策分析常常需要对多个相关系统数据进行汇总、比较、分析等操作,而在用于事务处理的关系数据库中需要进行许多连接和计算才有可能得到结果,尤其是对于异构的数据常常需要花费大量的时间进行处理;并且查询的结果并不总能满足决策者的时间要求。因此,传统的联机事务处理系统已经不能满足决策考查询分析的响应时间要求。而且,目前的联机事务处理系统中使用的数据库管理系统主要是针对事务处理而设计的,它们主要关心的是如何处理并发、事务管理等方面;而没有过多地去考虑分析查询的特殊需要,由此产生了面向分析的数据仓库和OLAP技术。


    数据仓库可以看作是一种结构,它包含多种技术和产品,如:商业数据多维模型、实体关系(RR)模型、数据库管理系统(DBMS)、并行计算技术和OLAP工具等。数据仓库通过提取、转换、加载(ETL)工具来实现数据的导入,ETL工具主要完成的功能包括有:异构数据的读取功能、数据的预处理功能、数据加载功能及元数据的管理等功能。


    数据仓库中的数据包括当前数据、历史数据、汇总数据、元数据等多种形式。正是这些数据为决策支持系统(DSS)提供了有效的数据平台。


    数据仓库是通过OLAP技术进行数据建模的,数据仓库中的数据主要是以多维模型进行存储和展现的,OLAP技术为准确定义多维模型、操纵多维立方体提供了有效的实现基础。在数据仓库中一个多维模型主要由一个包含大量事实数据并且没有冗余的事实表和一些表示汇总方式的维表组成。这些多维数据模型可以以星形模式、雪花模式、或事实星座(fact constellation)模式等形式存在。与星型模式相比,雪花型模式中数据表易于维护,节省空间;但是在执行查询时需要更多的关联操作,降低了数据仓库的响应性能。因此,在数据仓库设计中,星型模式更流行。在星型模式中,每个维用一个表表示,每个表中包含一组属性,维表中的数据会有一些冗余,并且维表中的属性可能以全序或偏序关系存在。图2显示了基于星型模式的多维模型。

 

 图2 星型模式多维模型

    图2 星型模式多维模型


[page]    数据仓库中,各种模型将数据看作数据立方体(Cube),数据立方体是n维的(n≥2)。它允许以多维形式对数据进行建模查看,将多维模型中的维表和事实表中的度量,以维和事实的形式进行展现。


    概念分层用于对数据进行聚合;一个概念分层定义;一个映射序列,它将低层概念映射到上一层概念,是数据库模式中属性(域)的全序或偏序排列。


    在OLAP中,一个维中根据不同的用户视图,可能有多个概念分层。概念分层可以由系统专家、领域专家结出,也可以根据数据分布使统计分折算法给出如:ID3决策树算法。一个维表可以有多个不同的概念分层,每个概念分层称为一个层次(hierarchy),每个层次中的不同分层称为一个级别(1evel)。如图2中的虚拟维(基于成员属性的维)“生产时间”可以按照年-月-日来分,也可以按照年-季-月-日来分;这就是两个不同的时间层次,年、季、月、日就是不同的级别。


    概念分层被用于对OLAP进行数据建模,多维数据模型中,数据组织成多维,每维包含由概念分层定义的多个抽象层。这样,使用户可以从不同角度观察数据,同时也有利于OLAP对各种视图进行极化。OLAP定义了一些操,作用于概化、查询、分析基于概念分层的数据立方体,包括上卷(roll up)、下钻(drill down)、切片(Slice)等,这些OLAP操作是抽象的,具体的实现过程与OLAP数据模型有关。


    1.2 行业应用分析


    数据仓库的设计和实现是本项目的最终目标,但是数据仓库的构造是一个艰巨而长期的任务。键的问题是清楚定义数据仓库的结构,一般地,数据仓库采用如图3所示的3层结构。

 

    图3 数据仓库3层结构

    图3 数据仓库3层结构


    在设计过程中,采用企业级数据集市结构(EDMA)基于星型模式进行粮食行业数据仓库的构建,在统一的全局元数据中心库的基础上实现由数据集市到数据仓库的开发。


[page]    由于数据仓库的建设是一个基于原型的迭代过程,因此,经过论证首先确立了企业急需的面向3个主题的数据集市:仓储、业务、财务;然后围绕仓储主题构建3个多维模型:入库模型、出库模型(见图2)和库存模型。


    在数据仓库的3层结构中,OLAP服务器有3种类型:ROLAP(关系OLAP)、MOLAP(多维OLAP)和HOLAP(混合OLAP)。ROLAP是中间服务器,它介于关系DBMS和客户前端应用程序之间。它使用关系DBMS或扩充关系DBMS来存放井管理数据仓库,OLAP中间件实现其余的服务,这种技术有很大的可伸缩性,但是关联操作使得响应效率降低。MOLAP通过基于数组的多维存储引擎,将数据映射到数据立方体数组结构中,实现数据的多维视图。这种技术的优点是数据的快速索引,缺点是数据集是稀疏的,存储利用率低。HOLAP(混合OLAP)结合ROLAP和MOLAP技术,将ROLAP的较大可伸缩性和MOLAP的快速计算紧密结合,实现数据的有效存储和快速检索。对于粮食行业,基于粮库的事务数据,在粮库的上级管理部门建立了基于上述3层结构的数据仓库,由后台进程定时完成数据的上传、转换和加载,对于数据立方体的更新由后台进程配合管理员来完成。


    在数据仓库实现过程中,立方体数据的极化(materilization)是非常重要的,被极化的数据称为概化视图(matellized viewser)。立方体数据的概化方式有不概化、全部极化、部分概化3种。考虑到响应效率和存储空间的限制,许多OLAP产品使用启发式方法实现数据立方体的部分极化,一种方法就是概化那些经常被访问的基础立方体集,这也是学术界目前研究的热门,提出了一种半贪心(semigrecdy)启发式算法PSUM,此算法的目的就是给出部分极化视图(或称部分聚集)的一个下界,使得其他的任何一个数据视图可以由这些概化视图一步计算出来,从而提高OLAP响应效率……由于作者涉及的粮食企业用于分析和决策的数据量相对来讲不是特别大(约300 Mbit/年),因此,在设计的粮食决策支持系统中采用公式T(T-1)/2+T=2n-1(T:最小界,n所有的维属性值)来确定极化视图的最小下界,然后使用/数据视图模式的表示方法结合业务限制(如:大米和大豆的库存量不做对比等)确定出需要计算的最少数据视图进行概化(约占空间为1Gbit/年)。基表数据变化时可以对立方体和极化视图进行增量更新,在维表变化是可以对立方体进行完全更新,同时重新计算并更新极化视图,从而实现新生数据从数据源——数据仓库——数据立方体——极化视图全过程的传送和更新,实现事务数据到决策服务数据的转变过程。


    构建行业数据仓库是一个长期的、反复的过程,操作系统和数据仓库平台的选取也很重要,主要考虑的因素除资金外应当是企业数据的增长速度、规模和平台使用的各种技术的技术指标。如果企业的历史数据(如5年)达到TB(1000 Gbit)级以上,那么就要考虑使用Unix上的数据仓库平台;如果仅仅在10 Gbit左右就可以考虑Windows上的数据仓库平台。数据仓库建设的主要部分ETL工具和OLAP服务器的设计,目前的ETL工具和OLAP服务器产品也相对较多,大多数的数据库厂商都提供ETL工具和OLAP服务器。当然可以通过技术储备如上面讲到的存储技术、极化技术等自行开发ETL工具和OLAP服务器;但是开发成本和开发周期会相应增加。可以结合实际的需要进行取舍。无论采取那种方式,在数据仓库的构建过程中,关键是业务建模;只有对企业的业务需求进行深入的了解,才能提出真正适合企业需要的数据模型,这样数据仓库及各种相关技术才能真正地与实际相结合,为企业管理和决策提供强有力的保障。


    2 数据挖掘技术


    数据挖掘是一项新技术,它被用于从大规模数据库中发现新的、有用的知识。数据的不断增长产生了对知识发现的需求;数据挖掘技术正是为适应这一需求而出现的,因此数据挖掘又被成为知识发现(KDD);数据挖掘使用一些有效的分析算法从平凡数据中发现有用的模式,可以说数据挖掘是将海量数据库和有用的知识紧密相连的桥梁。


    企业级数据挖掘是将数据挖掘技术应用于挖掘企业数据,如:客户数据,来挖掘新的客户知识,具有很高的商用价值,并且能够应用到商业实际。企业运用数据挖掘进行知识发现的过程一般包括7个步骤。


    1)识别商业问题。


    2)识别和研究数据来源,


    3)提取和处理数据。


    4)对数据进行挖掘(如:发现关联规则或者产生预测模型)。


    6)在商业实际中应用挖掘模型。


    7)ROI(投入产出)计算。


    数据挖掘的数据源并不局限于某一种数据,可以在多种异构源商进行数据挖掘,如:数据仓库、OLTP系统、Excel/Access数据、文本文件等。但是普通的数据并不都能不加处理地直接用于数据挖掘,这主要是因为普通的业务数据中往往存在很多问题如:数据表示不一致、空缺值、数据类型不统一等。这时就需要在数据挖掘之前进行对各种数据源的数据进行预处理,这些操作有如下几个方面:数据清理、数据集成、数据选择、数据变掺和数据修正等。数据的预处理完成后,就可以按照企业的需要进行数据挖掘。数据挖掘的任务一般分为描述和预测;描述型数据挖掘用于刻画数据库中数据的一般特性,预测型数据挖掘在当前的数据上建模并进行预测。数据挖掘是一项新技术,但是数据挖掘并不是独立的一门学科,它与数据库技术、统计学、机器学习、模式识别等技术紧密相关。近几年,许多学者都已经在这些方面做了大量的工作,这里作者就不再赘述。


    在粮食企业建立数据仓库后,就可以对其数据进行分析,联机分析处理(OLAP)侧重于以多维的方式展现数据。而数据挖掘则侧重于对数据进行深层次的挖掘,为企业提供有价值信息。数据挖掘在粮食管理决策支持系统中的应用主要有如下几个方面。


    ·仓容分析 针对各地的粮库仓容建设数据,运用聚类算法进行孤立点检测,进而判定出是否存在实际仓容建设和支出不相符的单位,从而加强企业的管理,减少企业的损失。


    ·收购预测 商务流通领域回归分析预测系统的回归模型对收购数量与外界因素如;年平均气温、年平均降雨、市场价格、病虫害情况等相关性进行分析,进而能够根据已有数据对未来的收购数量进行预测,以便企业可以提前做好各项计划和准备工作,避免了人、才、物的浪费。


    ·联机分析处理(OLAP)概化视图(MV)的优化  使用决策树算法对OLAP用户的使用日志进行模式发现,然后利用基于距离的聚类算法对所有数据视图和模式进行相关性分析,计算出用户最可能访问的数据视图进行概化,提高OLAP的响应速度;这部分相对较难,目前作者正在进行这方面的研究。


[page]    3 其他BI相关技术


    3.1 客户关系管理


    CRM指企业为改善和提高吸引新客户、留住老客户、保持客户忠诚度、客户盈利等能力而采取的手段,通过有意义的交流来理解和影响客户行为。是通过围绕客户细分来组织企业,鼓励满足客户需要的行为,并通过加强各企业与客户、分销商及供应商等之间的联系,来提高客户满意度和客户盈利能力的商业策略。


    CRM的核心就是客户价值管理,CRM价值链的基本流程(见图4):

    图4 CRM价值链

    图4 CRM价值链


    第1步,客户终生价值分析 就是通过分析客户数据,识别具有不同终生价值的客户或客户群;


    第2步,客户亲近 就是了解、跟踪精选的客户,为其提供个性化服务


    第3步,网络发展 就是同客户、供应商、分销商及合作伙伴等建立起一个强有力的关系网;


    第4步,价值主张 就是同关系网一起发展客户和公司双赢的价值观;


    第5步,关系管理 就是在价值观的基础上加强对客户关系的管理。


    客户终生价值分析是CRM价值链的第1阶段,也是最重要的阶段。客户终生价值(Customer Lifetime Value,LTV)是指对一个新客户在未来所能给公司带来的直接成本和利润的期望净现值,就是考虑未来客户产生的利润,现在客户对你的价值。一个客户的价值由3部分构成:历史价值  到目前为止已经实现了的客户价值;当前价值  如果客户当前行为模式不发生改变的话,在将来会给公司带来的客户价值;潜在价值  如果公司通过有效的交叉销售、调动客户购买积极性或客户向别人推荐产品和服务等,从而可能增加的客户价值。


    3.2 数据库直销(Database Marketing)


    首先引入直销的概念,直销指为识别和满足用户在交易过程中需求而采取的所有活动。数据库直销:以客户为基础的,信息集中的,面向长期的直销手段。数据库直销的功能包括:能够将直销努力集中到感兴趣的顾客、能够与顾客建立长期的联系、对于不同的客户可以提供不同产品目录、在产品的陪送中具有优势、增加对客户的了解。


    数据库直销实际上是一个交流的过程,可以识别客户和需求,通过交流捕获结果信息。企业的直销数据库中的数据包括:顾客和可能的顾客个人信息,顾客订购事务信息,订购的产品信息,促销信息,顾客地域分布信息,顾客生命周期信息,财务信息等数据。直销数据库设计有两种方式:1)关系数据库,用于捕获实时数据;2)多维数据库,用于分析和市场决策制定。数据库直销适用的领域:客户保持、CRM、市场研究、销售渠道建设、扩大销售等。数据库直销中使用一种基于单元格的方法RFM技术(Recency,Freqtlency,Monetary)进行顾客数据的分析。通过分析,对顾客进行分组,从而捕获有价值的信息。


    就粮食行业来讲,粮食企业与农民和销售客户的关系对企业来讲并没有上升到主要地位,现存的主要问题集中在监督管理上,因此CRM和数据库直销在粮食行业的应用相对来讲并不重要。但是对于其他行业,如:电信、银行、金融等,客户就是企业利润的来源,因此,结合数据仓库、数据挖掘、CRM、数据库直销等技术对客户、市场的分析对这些企业的发展来讲至关重要。


    4 结论与展望


    商业智能在行业中的应用是一个长期而复杂的过程。BI作为信息技术发展的产物,是企业分析海量数据的必要途径,随着信息技术和企业的紧密结合,商业智能及其相关技术必将为企业带来更大的效益。尤其对于一些国内企业来说,充分利用BI技术还将改善企业管理、大大提高企业的竞争力。随着网络和无线通讯的发展,电子商务已经进入无线领域,无线电子商务和商务智能的结合将是未来发展一个重要的领域,可以说,商业智能技术伴随着电子商务的发展必将在更多的行业中得到更广泛的研究与应用,从而提高企业的核心竞争力和效益。


第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:fanwei

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。