2009-05-27 08:32:01 来源:万方数据
文中提出了基于油田生产数据采用数据抽取、转换和加载技术的数据仓库的构建策略以及基于多维数据集的数据挖掘的实施方案,并对包括数据仓库体系结构的设计、数据仓库的构建、多维数据集数据存储模式的优选策略、在线分析处理以及基于分层聚类分析的方法实现数据挖掘等在内的各主要环节进行了系统详细的阐述。最后结合油田生产数据,综合运用数据仓库、联机分析处理和数据挖掘技术构建了一套油田企业生产决策支持系统,并提取和挖掘出了对于油田生产决策支持有用的信息。
随着油气勘探开发工作的不断深入,经常需要处理、使用大量的信息数据,而在这一过程中往往出现以下问题:管理人员的操作日趋复杂、用户分散、相互联系程度低、信息共享程度低;信息加工、处理手段差,无法直接从各级各类业务信息系统采集数据并加以综合利用,业务系统产生的大量数据无法及时提供给决策部门。作为油田管理人员,仍需在查询多个基于各种异构数据源的业务系统和外部系统,并进行大量的数据分析后才能做出决策。工作量大,且容易出现人为差错,从而影响决策的质量。
在油田生产过程中,积累了大量的生产管理历史数据和成果数据,从事务型数据中得到有价值的决策信息越来越困难。因此,通过建立有兴趣的模型,提取和挖掘出大量数据后面的“知识”,探索出油田生产中的规律性,可以预测油藏开发指标、未来的生产情况等,从而更有效地进行生产调整和优化,并为参与市场竞争做出重要的决策。数据挖掘是实现油田的智能化决策的现代化油藏管理的重要技术,因此,在合理构建数据仓库平台的基础上,开展在线分析处理与数据挖掘技术的决策支持系统的研究工作是有意义的,并为决策人员研究油田生产的发展走势提供可靠的技术支持。
1 数据仓库体系结构的分析与设计
数据仓库的数据来源广泛,使用要求多变,查询要求复杂,传统的数据库系统结构无法提供足够的灵活性来满足这种复杂多变的使用要求。因此,从用户角度来分析与设计数据仓库的体系结构,首先应根据数据仓库的使用要求确定分析的主题和各种分析指标,数据在进人数据仓库的存储之前,必须经过数据抽取、清洗和转换等预处理过程。然后,选择合适的存储模型,将它们进行有效的组织,并存储在数据仓库之中,继而从中分析并挖掘出潜在的、隐藏的有用知识,为决策支持提供可靠信息。
一般数据仓库系统的体系结构可设计3个独立的数据层次:信息获取层、数据管理层和应用服务层。而考虑到油田生产数据信息的特点,本文提出的油田生产决策支持系统是由源数据层、数据获取层、数据管理层、数据分析层和数据展示层共5层构成的系统体系结构。如图1所示。

图1 油田生产决策支持系统数据仓库体系结构
数据源层主要存放着油田生产过程中的大量历史数据和在分析决策时需要用的外部数据。数据获取层从源数据层中抽取分析决策所必须的相关数据,然后将净化和转换后的数据集成到油田生产数据仓库中。通过数据管理层对数据仓库中的数据和数据源进行存储和管理,根据不同的主题建立数据集市来减少数据处理量。针对不同主题的数据集市,数据分析层中进行在线分析处理与数据挖掘,实现数据的多层次的分析和挖掘。然后数据挖掘工具将数据仓库中挖掘的知识放入专家系统的知识库中,通过知识推理达到定性分析辅助决策。而模型库则实现多个模型的综合决策。最后数据展示层将分析结果通过图件或表格的形式提供给相关决策人员,辅助决策。
2 油田生产数据仓库的构建
数据仓库的构建过程中首先需要进行数据建模,确定系统主题域。以井组生产为例确定的系统主题为:不同层位注采工艺和注水量的不同对油井生产的影响。
主题域一经确定,就可以对每个主题的内容进行较明确的描述,通过分析所需使用的数据包括:生产时间、油井属性数据、油井生产数据、注水井属性数据、注水井生产数据及层位属性数据,进而可以确定每个主题的事实和维度,并使用多维数据模型建立数据仓库的概念模型。对于井组生产主题来说,决策者所关心的事实数据为日产液量、日产气量、气油比、含水和日配注水量等。传统的概念模型注重的是数据的结构,对于分析型应用是不合适的,而多维数据模型注重的是数据的含义,能够清楚地表达分析领域的数据模型,因此,数据仓库的概念模型可采用多维数据模型来建模。如图2所示。

图2 井组生产的多维数据模型
根据上面的概念模型还不能直接建立数据仓库的物理模型。必须先建立逻辑模型,由逻辑模型来指导数据仓库的物理实施。在数据仓库逻辑模型的设计主要包括粒度层次的划分,关系模式的定义,数据源及数据抽取模型的确定等。而关系模式的确定与粒度层次的划分有关,关于粒度的大小则遵循在充分考虑数据仓库的分析能力的前提下,也要兼顾数据量的大小和查询分析效率。
数据源中的数据在数据的组织方式、数据格式等许多方面与数据仓库对数据的要求有很大差别,因此在进入数据仓库之前,必须进行数据的抽取与清理工作。
数据抽取包括对数据源的说明、数据抽取规则、数据源的列与数据仓库列的对应关系等,并不是所有的数据源中的数据都需要抽取到准备区,抽取的数据必须满足一定的条件。在很多情况下,需抽取的数据可能分散在不同的表中,这时还需要指定表的连接条件。抽取后的数据还不能直接加载到数据仓库中去,还需要对数据进行各种清理工作,包括格式转换、类型转换、统一单位,或将数据按照划分的粒度层次进行汇总、聚集等。经过抽取和清理的数据,才能从数据准备区加载到数据仓库中去。
3 数据存储模式的选择策略
由于存在MOLAP和ROLAP两种在线分析的处理技术,在应用OLAP时,必然面临选择哪种数据存储模式的问题。这里分别从查询性能、数据加载性能、空间占用、分析能力、维的管理以及维护能力等方面来分析这两种模式的特点,以帮助针对具体的应用,选择合适的数据存储模型。
(1)查询性能:由于MOLAP直接处理存放在多维数组总的数据,因此一般而言,MOLAP的查询性能要优于ROLAP,查询响应速度较快且较稳定。而ROLAP的查询响应速度这不够稳定,有时很快,有时这比较慢。
(2)数据加载性能:在数据加载的操作中,MOIAP除要完成数据的装载外,还需要对所有立方体中的所有值进行计算。这样MOIAP所需要的数据加载时间就比较长。而对于ROLAP来说,在数据加载过程中所要完成的操作是数据加载、索引和概要表的创建。由于在ROIAP中所进行的概要表创建量一般较少,因此ROIAP的加载时间要比MOIAP的短。
(3)空间占用:如果所有的维成员组合都存在相应的度量值,则采用MOLAP时比较节省存储空间。但在实际应用中,许多维成员的组合不存在相应的度量值,从而形成稀疏矩阵,此时采用MOI.AP,就造成了空间的大量浪费。随着维数的增加,这种空间的浪费呈爆炸性的增长。
(4)分析能力:MOLAP在分析过程中的精度较高,具有分析的优势;而ROLAP的分析结果往往由于SQL语言的约束,使ROLAP的分析效果往往不如MOLAP。
究竟选择MOLAP还是ROLAP主要看应用的规模。如果要建立功能复杂、规模较大的企业级数据仓库,则一般选择ROIAP方式;而如果是建立功能单一、小型的数据集市则更宜采用MOIAP方式。
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。
