数据挖掘技术在冶金MES中的应用探讨

2009-05-12 08:41:02 来源：万方数据抢沙发

2009-05-12 08:41:02 来源：万方数据

摘要：MES 是一个能精确调度、发送、跟踪、监控车间生产信息和过程，且能够及时测量和报告其实时性能的制造执行系统。数据挖掘的主要任务是对大型数据库中的海量业务数据进行抽取、转换、
关键词：冶金 MES 数据挖

MES 是一个能精确调度、发送、跟踪、监控车间生产信息和过程，且能够及时测量和报告其实时性能的制造执行系统。数据挖掘的主要任务是对大型数据库中的海量业务数据进行抽取、转换、分析和模型化处理，从中提取辅助决策的关键性数据和隐藏的预测性信息。本文将数据挖掘技术引入到MES中去，根据过程控制和动态跟踪的特点，结合粗糙集属性简约的方法，依照冶金工艺，提供了一个企业级的决策支持平台。
    随着数据库技术的成熟和数据应用的普及，人类积累的数据量正在以指数速度迅速增长，从数据库中发现知识及其核心技术一一数据挖掘（DM）便应运而生了。知识发现（KDD）是从数据中发现有用知识的整个过程，数据挖掘（DM）是KDD过程中的一个特定步骤，它用专门算法从数据中抽取模式（patterns）。1996年，Fayyad、Piatetsky-Shapiror和Smyth将KDD过程定义为：“从数据中鉴别出有效模式的非平凡过程，该模式是新的、可能有用的和最终可理解的”。
    MESA（国际MES协会）给出了MES定义，即“一个提供信息的系统，以优化从定单到成品的生产活动。使用当前的和精确的实时数据，MES指导厂级活动，并对发生的活动进行响应和汇报，形成对变化条件的迅速响应，并专注于减少无价值活动，驱动有效的厂级操作和过程”。
    随着目前企业信息化建设的进一步深化，MES应用平台成为衔接企业管理系统（ERP、CRM、SCM）和现场控制系统的非常必要的层次。当前，工业过程对象已变为一个十分复杂的系统，以计算机为工具的高等控制方法已经应用于这些系统中，但结构复杂，计算量大，通常必须有知识库作为支持，而知识的获取是关键。数据挖掘技术可以将提取的潜在模式、规则评估检验后归人知识库，使得高等控制充分发挥作用，提高生产过程的控制水平。MES中的知识发现与数据挖掘主要针对于过程监控中的大量生产历史数据。通过分析这些数据，对生产过程中的参数变化进行在线监测，以此得到生产状态判别结果。本文将以济南钢铁总公司中厚板厂为实例进行分析。
    1 济钢中厚板厂MES概况
    济南钢铁总公司中厚板厂MES主要是对全线生产进行控制和管理的信息系统。MES以中厚板厂生产监控中心为中心（生产指挥中心、数据中心、通信中心、计算机中心，设在自动化室），对全厂生产进行在线生产控制与生产管理。中厚板厂MES的主要功能包括：生产计划与调度、生产组织与控制、生产统计管理、库场调度管理、生产设备管理、文本管理、质量管理、信息发布等等。实现信息流、物流的集成，与L2（过程控制级）系统实现有机地结合，建造一个从作业指示开始到物料（钢板）入库为止的、物流与信息同步的、支持高效高速的生产作业计划指挥、质量管理的计算机系统。
    MES以生产管理为中心，运用计算机信息化手段管理和优化生产过程，提高生产率，降低生产成本，缩短交货期，改善决策支持，实现生产管理自动化。并以满足现在和未来生产需要为主，为L2级提供必要的数据信息，同时负责生产数据的存储和分析，并完成以生产计划和统计为主的管理功能，覆盖的区域从原料进厂到成品出库的整个中厚板生产线。
    2 创建中厚板厂的企业数据仓库
    2.1 MES中的数据采集
    创建数据仓库的目的是为企业的DSS提供科学的决策依据。数据仓库用于大量数据存储和组织，而数据挖掘用于从大量的数据中发现知识，为用户进行预测决策。数据挖掘以数据仓库和多维数据库为基础，通过发现数据中的潜在模式，并以这些模式为基础自动作出预测。数据仓库与数据挖掘技术的结合为企业DSS的建立提供新的、更有效的解决方案。对数据进行统计分析是MES的主要功能之一。MES对生产中产生的信息进行统计汇总，这些信息包括：产品信息、产量信息、质量信息、技术信息、能耗信息、库存信息等。数据收集的主要内容和报表包括产品报告、生产计划报表、调度日报表、生产技术专业月报、钢板入库班报表及本班成品、原料综合统计表、技术经济指标完成情况、工序能耗报表、产品质量分析、生产数据的存储和交换。
    2.2 数据仓库建模
    数据仓库的创建、使用都是围绕主题实现的。主题对应于某一宏观分析领域所设计的分析对象，是在较高层次将数据归类的标准。通过分析，中厚板MES生产信息数据仓库的主题主要有：钢坯情况、钢板情况、质量判定情况、质检率等。主题的确定和决策需求紧密相关，决策需求越高主题也就越明确细化。根据以上主题，运用数据库建模技术建立起相应的数据模型。本文中的实例演示仅对“板坯情况”和“质量判定情况”两个主题进行讨论。
    （1）钢坯/钢板情况
    某块钢坯/钢板的情况（编码信息、钢种、成分、重量、规格、温度、炉次、炉号、定尺、生产日期、生产厂家）。
    （2）质量情况
    某块钢坯/钢板的质量情况（生产日期、生产厂家、钢种、规格、炉次、炉号、质量原因）。
    某月的质量情况（年、月、季、生产厂家、钢种、规格、质量统计）。
    多维数据库按照决策的需要构建数据库模型，形成信息的多维视图结构。具体来说就是把数据仓库中的各个主题设计成多维结构，存放在多维数据库中。例如：对钢坯/钢板情况，可以有日期维、单位维、重量维、类型维、规格维、成份维等；对质量情况，可以有日期维、单位维、类型维、规格维、质量原因维、成份维等，此外，不同的维又可以进行细化，形成星型结构。
    3 MES中的数据挖掘算法研究
    3.1 粗糙集的引入
    生产过程是一个复杂的、随机的、不确定的和具有周期性的多样性的过程，采用传统的模型化方法，很难建模、仿真和处理。粗糙集（RoutghSet，RS）是一种新型的处理数据的软计算方法，它不需要关于数据的任何检验或附加信息（如统计上的概率分布，模糊集理论中的模糊度划分及其隶属函数，神经网络中一定数量的训练样本等），而是直接从已知数据的初始决策系统出发，通过不可分辨关系和不可分辨类确定给定问题的近似域，有效地分析和处理不精确、不一致、不完整的信息，并有效地进行属性约简。本文提出了以粗糙集理论为主体的数据挖掘方法。
    3.2 基于粗糙集的数据挖掘算法
    关联规则是数据挖掘中的一种重要模式，它首先是由R Agrawal等人于1993年提出的，用于发现事务数据库中不同商品（项）之间的联系，找出顾客购买行为模式等。算法的核心就是Agrawal等设计的 Apriori算法，即基于两阶段大项集思想的方法，将关联规则挖掘算法的设计可以分解为两个子问题：
    （1）找到所有支持度大子最小支持度的项集（Itemset），这些项集称为大项集（Large Itemset，或频繁集）。
    （2）用第1步找到的大项集产生规则。
    生产过程计算机系统记录的数据是时间上连续变化的数据经采样、量化得到的。首先，本质上是连续的，其变化受生产状态约束；其次，生产过程的的行为、特性是由许多过程变量共同决定的，且任何一个变量的变化将影响其它变量乃至生产状态的变化，即在空间上，生产过程变量具有高维数、强关联和非线性等特点。

因此本文针对生产执行过程，结合粗糙集的属性约简改进Apriori算法，使之适合生产过程中的知识发现和数据挖掘。以下给出相应算法Apriori_MES。
    算法 Apriori_MES
    输入数据集DB，条件属性集C，决策属陕集D，最小支持度min_sup。
    输出符合约束条件的规则集R。
    算法步骤如下：
    Step1：DB'<——DB；//DB‘为一临时表
    Step2：根据输人得决策系统（U，CU{d}）和ind（C，{d}）置Sred（C）＝Φ；
    Step3：根据粗糙集的属性约简算法生成简约集合Sred（C）；
    Step4：for每个条件属性CiEC{
    if （Ci不属于Sred（C））{
    从DB’中删除属性Ci；
    C=C-f Ci）；
    }
    }
    Step5：扫描DB‘，确定候选1－项集；
    Step6：根据最小支持度min_sup，确定频繁1－项集合L1；
    5tep7：k＝0；
    Step8：k＋＋；
    Step9：使用连接Lk△△Lk生成候选k－项集；
    Step10：根据最小支持度min_sup，确定频繁k－项集Lk；
    Step11：Lk不空则转Step8；
    Step12：根据频繁项集Lk－1产生关联规则；
    Step13：根据约束条件从关联规则集中选出符合条件的规则集R。

第三十五届CIO班招生
国际CIO认证培训
首席数据官（CDO）认证培训

责编：

免责声明：本网站（http://www.ciotimes.com/）内容主要来自原创、合作媒体供稿和第三方投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
本网站刊载的所有内容（包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等）版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时，请及时通知本站，予以删除。