您当前所在位置:首页 > 论文 > 计算机论文 > 计算机数据库

对实时过程控制中的数据挖掘算法研究探析

编辑:sx_houhong

2014-03-24

实时过程控制中的数据挖掘算法研究探析如下文

1 引言

数据库中进行知识发现KDD(Knowledge Discov-ery in Database),是目前人工智能研究中一个极富应用前景的新领域。在这一领域中,目前已有了大量的知识发现算法,大部分算法都能从数据库中发现有效的知识,由于算法的设计目标是从各种类型的大中型数据库中挖掘知识,具有一定的通用性,但算法效率较低,难以满足工业生产过程中的实时性要求,很难直接用于实时过程控制中。我们曾多次参与实时过程中的数据采集及控制软件的开发,在受到基于范例推理CBR(Case Based Reasoning)方法[1]及KDD中序列模式发现(Sequential Pattern Min-ing)[2][3][4][5]的启发下,考虑到实时过程控制中的特殊性,给出了实时过程控制中的数据挖掘算法DM-RP(Data Mining in Real-time Processing)。

工业生产过程控制是很特殊的一个领域,计算机在其中多数起着数据采集、状态监测和实时控制的作用,这一过程中同样会产生大量的实时采集数据(如电流、电压、温度、气压、流量、电机转速、开关量等),人工一般是很难理解这些数据及其关系的,更不用说及时地总结并进行预测了,如果能让计算机自动实时地从产生的数据中抽取知识或规则,并利用获得的知识对即将进行的过程进行估计预测,或根据已获得的知识对发生偏离的过程进行实时纠正,那么将会收到更加良好的效果。

2 问题描述

2.1 实时过程控制的特点与通常的数据库管理系统中的数据(如商场购物数据,银行储蓄、贷款数据等)相比,生产过程中产生的数据有着明显的特点,主要表现在以下几个方面:

重复性 生产过程一般是一批一批地生产产品的,设备运转具有明显的周期性,若数据采集是按一定的时间间隔进行,则每周期采集的数据量是一定的。

数据的准确性 生产过程中的数据是直接采集的不落地数据,因此数据准确性高,处理过程中不必考虑数据缺省等情况。

杂音数据少 过程控制中考虑到成本问题,采集的信号一般都是经过精心选取的,因此对过程控制没有直接影响的信号通常是不会被采集的2.2 问题的形式描述生产过程的一个周期所产生的有序采集数据称之为一个序列(Sequence),它包含了从周期开始到周期结束期间各时刻(t)的采集值,每个时刻t的采集值是相应时刻的一个状态值集St(Status-Set),St={st1,st2,...,stm}。每个完整序列我们也称之为一个范例(Case)。

设数据集D={Case1,Case2,...,Casen},它表示一个已采集的范例的集合,Casei表示第i个周期所对应的范例,1≤i≤n,Casei={Sti1,Sti2,...,Stik},k为一周期中共采集的状态数,Stih={st1,st2,...,stm}表示第i个范例序列中第h个项,1≤h≤k,st1,st2,...,stm为第i范例序列中h时刻采集的各状态值。

设范例集S′={S1′,S2′,…,Sv′},1≤i  再设序列集S={S1,S2,...,Sv},其中Si={Sti1U{c1},Sti2U {c2},…,StipU {cp},…,StikU {ck}},1≤i≤v,1≤p≤k,其中,cp为子序列{Sti1,Sti2,…,Stip}在D中重复的总次数。

本算法的目的主要是从集合D中产生出集合S,再利用S来生成规则用以预测。为了说明方便,再定义有关概念如下:

·范例数(case—number),指D中的序列(范例)总个数。

·最低范例数(min—case—num),指用户给定的一个数,使得若数据集D中范例总数低于此数,则不产生任何规则。

·子序列(sub—sequence),指范例序列中从第一个元素开始的一个连续元素构成的子集。

·k子序列(k—sub—sequence),指元素个数为k的子序列。

·支持度(support),指D中子序例的重复次数/D中总的范例数。

·最低支持度(min—support),指用户给定的一个数,若子序列的支持度大于等于此数,则此子序列为频繁子序列。

·信任度(confidence),一个范例是从周期开始到周期结束的一个完整有序序列(按时间序),若存在这样一个序列,即St1,St2,…,Sti-->Stj,…,Stk,其中1≤i≤j≤k。信任度指此k子序列的支持度与i子序列St1,St2,…,Sti的支持度的比值。

·最低信任度(min—confidence),用户给定的值,某规则的信任度必须大于此值方可视为有效规则,有效规则可用来预测未来趋势。

·状态比较函数(compare),根据具体领域而定义的一个判别两个范例序列中相应位置的两个状态值集是否相似的函数,通过此函数,可依次比较两序列中相应项是否均相似来判断两个序列是否相似,此函数返回值为-1,0或1,分别表示<,=,>。

3 算法

本文即是实时过程控制中的数据挖掘算法研究探析

相关推荐:

计算机数据库学籍管理系统

免责声明

精品学习网(51edu.com)在建设过程中引用了互联网上的一些信息资源并对有明确来源的信息注明了出处,版权归原作者及原网站所有,如果您对本站信息资源版权的归属问题存有异议,请您致信qinquan#51edu.com(将#换成@),我们会立即做出答复并及时解决。如果您认为本站有侵犯您权益的行为,请通知我们,我们一定根据实际情况及时处理。