首页 > 大数据 > 正文

数据仓库中数据源的管理

2012-06-01 17:07:14  来源:TechTarget中国

摘要:数据仓库系统必须持续扩展新的数据源,这需要一定的处理资源来将数据转换和整合到统一的企业数据模式中。此外,还需要一定的空间来管理元数据即大量数据源中必不可少的附属数据。
关键词: 数据仓库 数据源

  许多用来创建OLAP数据库的产品都会有多个数据源。一个系统拥有多个数据源或通过多个小型数据仓库获取所需要的数据是很常见的情况。然而,如果数据仅位于一个数据源,那么系统状况必然是最佳的,因为不同系统的数据很少同步,额外的ETL就会影响处理过程。从多个系统获取数据通常比从单个数据源获取数据的速度慢。


  注:这种情况似乎与我们想象的不同,因为看似使用多个数据源能够实现多台服务器的并行处理,从而提高性能;实际上,这种情况很少出现。


  分析的性质决定了人们一定会查询汇总信息,并将它整合到基本数据中。他们希望通过使用关注的汇总数据隔离出特殊的事务子集,然后显示该部分数据(或打印数据、或将数据提取到Excel)。毫无疑问,在汇总数据和详细数据存储在同一系统中时,隔离是比较简单的方法。


  由于用一个数据源同时存储汇总数据与详细交易数据可以简化数据维护与操作,所以需要建立能够存储和处理大量数据、随着数据增长而扩展的大型数据仓库,为IT提供强有力的分析资源。


  我经常需要对一个企业的数据进行全面整理,才能够发现我需要的数据。当业务需求出现时,业务用户会考虑解决方法,而不是数据所在位置的约束。如果基于单一数据源,那么会更容易定义和生成报表。


  将所有数据都保存在同一个位置,显然可以简化数据的查询和使用。不仅如此,这也有利于整理数据脉络。不同的源系统慢慢会出现不同的数据捕捉方法。单个事务会在某一特定时间点发生,如产品离开生产线或者货船离开码头。但是,对于许多重要业务事件而言,这个过程需要进行一段时间的跟踪。整个销售周期可能会持续几周、几月甚至几年时间。在这个周期中,不同的系统负责捕捉不同步骤的数据--CRM、订单输入、配送、制造、支付处理等。最困难的一点是跟踪这些系统从开始到结束的状态,将这个周期中发生的所有活动进行关联。


  我对数据脉络也开始产生了疑问。数据脉络是一个很大范围的问题,它关系到如何测量一个业务事件发生的动因,如广告、销售活动、制造、配送、清单等。如果数据脉络可通过数据库结构建立和确定,那么企业数据源之间的深度关系也就能理清了。


  真正建立起这些数据源之间的关系并非易事。在交易结束之后,会计系统会在一个月之内准备好数据;制造系统会在每天晚上准备好数据;HR系统则每两个星期提供一些数据。整合这些系统的数据,使它们输入统一的结果,是一件富有挑战性的任务。


  注:虽然确定数据仓库的数据脉络有一定的困难,但是困难主要都集中在设计阶段。一旦建立起数据脉络,对于报表系统的维护和优化会有很大的好处。


  各种源系统的数据差异给信息架构团队带来了巨大的挑战。尽管如此,对数据差异的处理、将其融入到内聚整体中恰恰是产生强烈业务洞察力的基础。


  如果将数据整合到一个位置,那么这个建立数据源的设计过程就会非常简单。将新数据源整合到一个企业数据仓库中,就一定能够解决数据脉络问题,也就解决了数据添加问题。虽然添加数据一开始很困难,但一旦完成,这些数据可供整个业务范围使用。


  然后,数据仓库系统必须持续扩展新的数据源,这需要一定的处理资源来将数据转换和整合到统一的企业数据模式中。此外,还需要一定的空间来管理元数据(数据源、提取日期、转换等),即大量数据源中必不可少的附属数据。理想情况下,系统规模可以先设定为符合短期需求,再随着业务的需求而增长。


第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:zhangyexi

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。