首页 > 大数据 > 正文

数据仓库技术及在医药行业中的应用

2010-12-26 19:26:12  来源:ZDNET CIO

摘要:我国医药行业发展很快,已成为当今世界上发展最快的医药市场之一。专家预计,到2010年中国的医药市场将达到240亿美元,成为继美国、日本、德国和法国之后的世界第5大医药市场。
关键词: 数据仓库 医药行业

        改革开放以来,我国医药行业发展很快,已成为当今世界上发展最快的医药市场之一。专家预计,到2010年中国的医药市场将达到240亿美元,成为继美国、日本、德国和法国之后的世界第5大医药市场。

        随着人民对健康和生活质量的关注,以及国家医疗保障体系的改革,我国医药行业面临着巨大的发展机遇。然而,医药企业的发展也面临复杂而激烈的市场环境。随 着医药跨国公司大举进军中国市场,中国企业面临的竞争环境更加严峻和残酷。尤其是国内医药集团企业具有资产规模大、产权关系复杂、资金链条长、地域分布 广、市场国际化等特点,传统的企业管理体系和模式已经不能适应集团企业发展的管理需求,信息和网络技术在集团管理实践的发展中逐渐起着不可替代的作用。

        医药行业正在成为计算机深入应用的行业,通过十几年的发展,各集团公司积累了大量的数据。在这些大量数据的背后隐藏了很多具有决策意义的信息,怎样利用这 些数据,深层次地挖掘数据资源并进行分析,如何迅速从大量数据中获得决定市场走向的关键信息,传统的数据库系统已经无能为力。采用数据仓库技术,既能满足 多用户的联机分析处理,又可有效管理大量分布于不同数据库的数据,并通过数据挖掘、综合分析等工具提供在线决策支持。并根据这些分析结果制定长远规划,从 而提高公司的管理水平和竞争优势,成为当今医药集团公司目前的努力方向。
 
        2、数据仓库技术

        2.1 数据仓库技术的概念

        2.1.1数据仓库定义

        数据仓库是一种只读的、用于分析的数据库,常常作为决策支持系统的底层。它从大量的事务性数据库中抽取数据,并将其清理、转换为新的存储格式,即为决策目 标而把数据聚合在一种特殊的格式中。W.H.Inmon对数据仓库的定义是:数据仓库是支持管理决策过程的、面向主题的、集成的、随时间变化的、但信息本 身相对稳定的数据集合。其中,“主题”是指用户使用数据仓库辅助决策时所关心的重点问题,每一个主题对应一个客观分析领域,如销售、成本、利润的情况等。 那么,所谓“面向主题”就是指数据仓库中的信息是按主题组织的,按主题来提供信息。“集成的”是指数据仓库中的数据不是业务处理系统数据的简单拼凑与汇 总,而是经过系统地加工整理,是相互一致的、具有代表性的数据。所谓“随时间变化”,是指数据仓库中存储的是一个时间段的数据,而不仅仅是某一个时刻的数 据,所以主要用于进行时间趋势分析。一般数据仓库内的数据时限为5年至10年,数据量也比较大。“信息本身相对稳定”,是指数据一旦进入数据仓库,一般情 况下将被长期保留,变更很少。

        2.1.2数据仓库组织和管理数据的方法与普通数据库不同

        主要表现在三个方面:

        1)、它依据决策要求,只从数据库中抽取那些需要的数据,并进行一定的处理。

        2)、数据仓库是多维的,即数据仓库的数据的组织方式有多层的行和列。

        3)、它支持决策处理,不同于普通的事务处理。

        2.1.3数据仓库需要以下数据库技术的支持

        1)、并行数据库技术:数据仓库中的数据量很大,一般要达到GB级,有的甚至要到TB级。对于处理如此大规模的数据,使用并行技术对提高运行效率是很有帮助的。

        高性能的数据库服务器:传统数据库的应用是操作行的,而数据仓库的应用是分析型,它需要有高性能的数据库服务器配合工作,对DBMS核心的性能也有更高的要求。

        2)、数据库互操作技术:数据仓库的数据来源多种多样,可能来自数据库,也可能来自文件系统。即使都来自数据库,这些数据库也往往是异构的。为了从这些异构数据源中定期抽取、转换和集成所需要的数据存入库中,异构数据源之间的互操作技术是必需的。

        3)、数据仓库技术在近几年蓬勃发展起来,不少厂商都推出了他们的数据仓库产品,同时也推出了一些分析工具。仅仅拥有数据仓库是不够的,在其上应用各种工具进行分析,才能使数据仓库真正发挥作用。联机分析处理和数据挖掘就是这样的分析工具。
 
        数仓库的体系结构
 
        根据W.H.Inmon对数据仓库的概括,数据仓库系统由以下几个部分构成:数据的采集、数据存储和管理、联机分析处理和决策支持开发应用环境。除各个部分硬件平台的选择,对数据仓库的基础设施的选择,也就是对以下四个部分各种软件的选择。

        2.2 数据的采集—数据的抽取、转换和转载(ETL)

        数据的采集—从原有的系统中有效地、高效地抽取、净化、转换和装载数据的问题,在数据仓库的建立过程中,已变得日益突出。当数据仓库的数据量非常大的时候,数据收集的高效性就变得更加必要,否则就会加大客户的投资。

        以下列举商务需求和条件的问题,会对我们在ETL工具上的选择提供一些帮助:

        对系统数据的知识基础是否充分;

        数据抽取/装载操作是一次完成,还是不断/反复操作;

        关注的焦点是数据内涵的质量,还是补偿式的传递数据;

        数据质量问题是特殊性的(例如是针对客户或销售额),还是普通性的;

        使用现成集成套件工具,还是自己有针对性的开发;

        数据抽取/转换是集中管理,还是分布管理;

        数据抽取/转换是通过参数控制,还是编程控制。

        2.3  联机分析处理(OLAP)

        联机分析处理是针对特定问题的联机数据访问和分析,通过对信息进行快速、稳定、一致和交互式的存取,对数据进行多层次、多阶段的分析处理,以获得高度归纳 的分析结果。联机分析处理是一种自上而下、不断深入的分析工具,在用户提出问题或假设之后,它负责提取出关于此问题的详细信息,并以一种比较直观的方式呈 现给用户。联机分析处理技术的发展速度很快,在数据仓库的概念提出不久,联机分析处理的理论及相应工具就被相继推出了。

        联机分析处理要求按多维方式组织企业的数据,传统的关系数据库难以胜任。为此,人们提出了多维数据库的概念。正是这一技术的发展使决策分析中的数据结构和 分析方法相分离,才有可能研制出通用而灵活的分析工具,并使分析工具产品化。维是人们观察现实世界的角度,决策分析需要从不同的角度观察分析数据,以多维 数据为核心的多维数据分析是决策的主要内容。多维数据库是以多维方式组织数据的。目前,联机分析处理的工具可分为两大类,一类是基于多维数据库的,另一类 是基于关系数据库的。
两者的相同点是基本数据源仍是数据库和数据仓库,都是关系数据模型的,都向用户显示多维数据视图;不同点在于,前者分析所需的数据从数据仓库中抽取出来,物理地组织成多维数据库,而后者是利用关系表来模拟多维数据,并不是物理地生成多维数据库。

        现在市场中有很多OLAP产品和工具,以多维立方体(cube)的存放(管理)在整个数据仓库系统的位置划分,可分为三类:

        1)、客户端(MicroCube);

        2)、多维数据库服务器(MDDB)(HyperCube);

        3)、关系数据库服务器(ROLAP)。

        第一种利用查询工具对Cube进入管理,但这仅适用于简单的二维查询报告。

        MDDB和ROLAP都允许用户从多个观察角度来定义和查询数据,但由于ROLAP技术与关系数据库的紧密结合,在存储和管理能力上、在适应性方 面,ROLAP要比MDDB具有更强“鲁棒”性。例如:一个3*3*3的立方体,(每维有3个维成员的三维Cube),共有27个数据单元。若根据分析需 要,在每一维上增加一个新的维成员,则该逻辑立方体(Cube)变成4*4*4,共64个数据单元。所以,如果没有很强的数据存储和管理能力,是不能胜任 和适应复杂的分析环境。

        OLAP工具

        实现数据仓库的最终目的是响应用户的要求,如资深的财务、商务分析员和行业销售等,他们要访问企业的分析数据或信息而作出更好的商业决策,大多数客户不仅 要求直接访问企业数据,他们还要求在数据仓库不断增长的时候,减少查询的复杂性并加快查询的速度和分析的速度。那么什么工具能够帮助最终用户访问数据呢?

        1)、电子数据表(如: Microsoft Excel)

        2)、查询和报告工具;

        3)、EIS/DSS钻取/导航工具;

        4)、多维分析/ROLAP。

        数据仓库的访问工具目前增长迅速,而且种类丰富。所以,用户可根据自己的应用要求和应用展示数据的风格来选择不同的访问工具。因此,要求数据仓库解决方案对访问工具必须采取开放的策略,才能满足用户的真正要求。
 
        2.4 数据挖掘(Data Mining)或知识发现(KDD-Knowledge Discovery Database)

        数据挖掘的基本思想是从数据中抽取有价值的信息,其目的是帮助决策者寻找数据间潜在的关联,发现被忽略的要素,而这些信息对预测趋势和决策行为也许是十分有用的。

        从数据库的角度看,数据挖掘就是这样一个过程,它从数据库的数据中识别有效的、新颖的、具有潜在效用的并最终可理解的信息(如规则、约束等)的非平凡过 程。非平凡是一个数学概念,即数据挖掘即不是把数据全部抽取,也不是一点儿也不抽取,而是抽取出隐含的、未知的和可能有用的信息。

        从决策支持的角度看,数据挖掘是一种决策支持的过程,主要基于人工智能、机器学习、统计学和数据库技术等多种技术,能高度自动地分析企业原有的数据,进行 归纳推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,从而减少风险,辅助作出正确的决策。它是提高商业和科学决策过程中的质 量和效率的一种新方法。
 
        有关数据挖掘技术的研究至今不到10年时间,但已从理论研究走向了产品开发,其速度快得惊人。据国外报道,虽然数据挖掘的产品目前尚不成熟,但其市场份额 却在不断增加,越来越多的企业开始利用它对公司的数据进行分析,并认为“如果不抢在竞争对手之前使用数据挖掘技术,等待你的将是失败!”由此可以预见,数 据挖掘技术还是相当有发展前途的。现代企业总是想在保留住原有用户的基础上,开发新的用户,数据仓库已经成为这些企业的关键业务应用。它们利用数据仓库在 产品、价格、投资、分配等方面,基于事实而不是基于管理直觉地作出决策。但是如何从浩如烟海的企业信息资料库中挤压出更有价值的信息,答案就是数据挖掘。 人们试图在数据对等的、不明显的和不可预知的模式中发现信息的模式、趋势以及关系。有一点必须强调:数据挖掘是建立数据仓库之上的决策技术。

        对数据挖掘的定义通常是这样的:

        数据挖掘或数据库知识发现是从数据中找出隐含的、预先未知的和潜在的有用信息的专门抽取操作。它包含大量不同的技术手段,如聚集、数理统计、学习分类规则、发现绝对工作的依赖性、分析变化和异常侦测。

        在数据挖掘和知识发现过程中不同阶段和处理的标识。

        收集---根据某些标准收集或截取数据记录。

        预处理---这是数据清洗阶段,在这个阶段将那些认为不必要的信息删除,并将所需数据配制成一致的数据格式。

        转换---将数据传输、并转换成带有标识(overlay)的数据,使数据变得可用和可导航。

        数据挖掘---这是从数据中做模式抽取的阶段。

        解决与评估---经系统标识的模式被解释成能在将来领导决策的知识。

        范畴分析支持数据挖掘的两个主要阶段:建立模型和预测未来结果。简单的说,一个模型就是阐明输入对输出影响的数学公式。由于它是数学公式,所以它可以通过 对基本数据不断理解的交互处理而不断提炼和调整,达到可以接受的精确程度。在决策过程中,决策者提出的问题千差万别,解决问题的方法论也就各不相同,因 此,可以使用很多技术建立这些模型。

        统计分析---最早使用的,并且最容易理解的技术。

        神经网络---随着近几年人工智能工具的流行,人们试图通过数学的方法来模仿人脑认知工作工程。

        决策树---是一种概念简单(if-then)的数学方法。

        遗传算法--- 该技术来自于对微生物通过自然的选择和遗传的结合如何进化的研究。

        模糊逻辑--- 简单地说,是一种对数学公式新的理解方法。(例如,将“大约6倍的2估算为12”代替6*2=12)

        基于记忆的推理(memory-Based Reasoning)---它是一种通过与已经分类的同类记录比较,给数据库中的记录分类的技术。因此,它也被称为K-最互邻(KNN:k-newest-neighbor)技术。
 
        融合方法---将各种不同的方法按分析需要混合使用。
 
        2.5 决策支持系统(DSS)

        传统的决策支持系统中,数据库、模型库和知识库往往被独立地设计和实现,因而缺乏内在的统一性。而以数据仓库为中心、事物处理和数据挖掘为手段的新方案很好地解决了这个问题。

        数据仓库解决了数据不统一的问题。数据仓库自底层数据库收集大量事务级数据的同时,对数据进行集成、转换和综合,形成面向全局的数据视图,形成整个系统的数据基础。
        联机分析处理从数据仓库中的集成数据出发,构建面向分析的多维数据模型,利用这个带有普遍性的数据分析模型,用户可以使用不同的方法,从不同的角度对数据进行分析,实现了分析方法和数据结构的分离。

        数据挖掘以数据仓库和多维数据库中的大量数据为基础,自动地发现数据中的潜在模式,并以这些模式为基础自动作出预测。数据挖掘反过来又可以为联机分析处理提供分析的模式。

        正是由于数据仓库、联机分析处理和数据挖掘这三种技术的联系性和互补性,使它们从不同的角度为决策支持服务。随着企业竞争日益加剧,这种新型的决策支持系统解决方案必将越来越受企业的青睐。

        3 数据仓库技术在医药行业上的应用

        3.1中国医药集团BI系统建设的意义

        集团化经营已经成为企业经营的重要内容。由于集团企业具有资产规模大、产权关系复杂、资金链条长、地域分布广、市场国际化等特点,传统的企业管理体系已经 不能适应集团企业跨地域、多元化经营发展的管理需求。现代企业管理细度和管理内容的增加,使数据量急剧膨胀。庞大的数据量的及时准确的处理是手工办不到 的,通过人工作业完成集团经营信息的集成、共享和综合分析的代价非常高,且不能满足对客户需求快速反应的需求。这一切都需要借助信息和网络技术的帮助。

        集团成立后,中国医药集团信息化重点在实施各分子公司业务信息系统上,但是随着中国医药集团运营一体化进程的开展,集团开始关注整体的运营质量。为了提升 总部及主要分子公司运营质量,同时也为领导提供决策支持,使中国医药集团主营业务发展战略能适应市场的快速变化,建设集团的运营数据库,实施中国医药集团 的BI系统,具有十分重要的意义。

        3.2 项目目标

        在中国医药集团总部及主要分子公司定期收集运营数据,形成统一的数据仓库,在此基础上对相关KPI指标进行分析,为各级运营部门及公司领导决策支持服务。

        短期目标:建设集团数据仓库,完成营销数据集市以及财务数据集市的建立,实现运营表格自动化生成,并按照运营提供警界值实现预警。

        长期目标:建立中国医药集团统一的数据分析体系以及绩效管理体系,为管理层和各业务部门提供数据分析的工具,提升其管理能力。

        3.3 中国医药集团BI系统的总体思路

        BI系统是面向企业决策管理层面的信息和应用工具。中国医药集团的BI系统将从5个方面帮助企业决策者以及业务用户对企业的经营情况进行观察、分析、评价和决策。
 
        绩效指标。指标体系是决策者评价企业经营绩效的标尺。从建立企业经营绩效指标体系入手,构建企业经营决策支持系统的基础。

        分析主题和路径。按照企业高层经营风险和决策的思维逻辑,从高层最关心的财务绩效指标入手,建立分析主题和分析路径。集团高层决策者选择不同的主题切入,逐步深入分析企业的经营状况,发现经营的关键问题,进而进行合理的决策。

         经营分析模型和工具。经营分析和预测模型是企业决策者决策分析的工具。经营分析和预测是在对企业大量的经营历史数据信息进行统计、汇总的基础上,运用特定的算法模型对企业生产运营情况进行趋势分析和预测,为企业经营决策提供科学的依据。

         企业数据仓库。建立面向分析主题和分析路径的企业数据仓库系统。按照分析主题和路径的要求,建立数据仓库的元数据结构,定义元数据与ERP业务数据的关系,并建立抽取、清洗、转换和加载的规则,定期从ERP系统获取决策支持系统所需的信息。

         决策门户。根据企业高层不同的管理范围和权限建立不同的决策门户。如总经理、财务总监、营销(市场)总监等不同的决策门户。每个决策门户实现“一页式”管 理,包括整体绩效、进度监控、分析主题、经营预警、要素分析、综合信息6个板块,将不同决策者关注的不同问题展现在不同的门户之中。

中国医药集团BI系统要面向三个层面不同的决策者(集团高层、集团中层、子公司管理层)的管理需求。由于各层面决策者的管理要求和重点各有不同,这5种应用的内容也各有不同。

        3.4 系统实现技术

        国药集团公司的数据仓库建设主要采用Business Object产品来实现,其中数据ETL工作采用DI完成,前端展示采用BO的webi、CX以及EPM。
系统的架构体系如下图所示。
 
        3.5 系统主要展示指标

        集团经营管理层面BI的应用可以为集团经营管理层提供经营监控、分析、预警和预测的管理方法和工具,为提高集团整体的经营效率和经济效益提供信息化支持。
 
        3.5.1集团经营管理层面BI应用的主要内容:

        •    销售计划完成情况分析:分时间、公司、产品、区域、业态、客户、厂牌、品种及其组合的的销售计划完成情况监控和预警;

        •    经营绩效分析:分时间、公司、产品、区域、业态、客户、厂牌、品种等纬度及其组合的销售收入、回款和销售利润指标等完成情况的监控;

        •    销售成本和费用。分时间、公司、产品、区域、业态、客户、厂牌、品种等纬度及其组合销售成本、销售费用监控;

        •    经营风险管理。分时间、公司、产品、区域、业态、客户、厂牌、品种等纬度及其组合应收账款账龄分析、逾期应收账款的监控和预警。

        •    业态管理。对各经营业态经营状况、盈利情况、现金流情况、资产利用情况等内容的监控和管理。

        •    客户管理。分时间、公司、产品、区域、业态、客户、厂牌、品种等维度及其组合客户贡献率和和客户满意度情况管理。

        3.5.2集团经营管理层面BI应用的主要特点

        (1)分析主题

         按集团经营管理的需求建立的主题和分析路径,包括销售收入、业态管理、客户管理、盈利分析、采购管理、资金管理、物流管理、成本管理等;

        (2)多纬度的经营绩效评价与管理

         从时间、公司、产品、区域、业态、客户、供应商、品规等不同纬度对集团经营层面的业务进行绩效评价与管理,多维度、多视角的分析为集团经营管理提供了有力的决策支持。

        4、结束语

        数据仓库作为一种新兴的数据管理和分析技术,目前在银行和电信行业应用比较广泛,医药行业由于起步比较晚这方面的应用还不太多,但以国外的发展趋势来看, 能否成功的建立自己的数据仓库应用系统已成为各个医药企业能否在市场竞争中生存的基本条件。随着世界经济一体化进程加快,国内医药市场向外开放,中资医药 企业迫切感觉到竞争的压力,各企业纷纷采取措施提高服务质量、挖掘优秀客户、加强管理效率以及保留优秀员工,而在实现这一切的手段中数据仓库技术往往是他 们的首选。各大医药企业目前应该充分利用各种最新的技术手段,不断提高管理和服务的水平以便在这场竞争中能保持优势。


第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:lyre

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。