第5章 递阶智能控制与学习控制 递阶控制和学习控制都属于智能控制早期研究的重要领域。人们解决复杂问题采用分级递阶结构体现了人的智能行为,萨里迪斯等提出的递阶控制揭示了精度随智能降低而提高的本质特征。学习是人的基本智能行为,傅京孙等最早提出基于模式识别的学习控制和再励学习控制。本章介绍三级递阶智能控制的结构、控制原理及在蒸汽锅炉的模糊递阶控制的应用; 阐述学习控制及自学习控制的概念、系统的组成及实现形式,并给出基于规则的自学习模糊控制的例子。 5.1大系统控制的形式与结构 大系统一般的特点是系统阶次高、子系统数目多且相互关联、系统的评价目标多且不同目标间可能有相互冲突等。人们研究复杂问题通常分层次、分级别来处理。同样,通常把较复杂的大系统控制问题分解成若干互相关联的子系统控制问题来处理。对复杂大系统的控制采用多级多目标控制形式,便形成了金字塔式的递阶控制结构。 5.1.1大系统控制的基本形式 按照信息交换方式和关联处理方式,将大系统控制分为3种基本形式: 分散控制、分布式控制和递阶控制。 (1) 分散控制系统。 每个子系统只能得到整个系统的一部分信息,只能对系统变量的某一子集进行操作和处理,各自有独立的控制目标。 (2) 分布控制系统。 每个子系统的控制单元是按子系统分布的,系统控制目标分配给各子系统的控制单元,它们之间可以有必要的信息交换。 (3) 递阶控制系统。 各个子系统的控制作用是由按照一定优先级和从属关系安排的决策单元实现的,同级的各决策单元可以同时平行工作并对下级施加作用,它们又要受到上级的干预,子系统可通过上级互相交换信息。 智能控制(第2版) 5.1.2大系统控制的递阶结构 1. 多重描述 用一组模型从不同的抽象程度对系统进行描述,于是就形成了不同层次,每一层都有相应的描述系统行为的变量及所要服从的规律等。这种描述的基本思想是: 沿着递阶结构越往下层对系统的内容了解得越具体越细致,越往上层对系统的意义了解得越深刻。 2. 多层描述 图5.1大系统的多层控制 多层描述是按系统中决策的复杂性来分级的,例如,含有不确定因素的大系统按控制功能可分为4个层次: 直接控制层、最优化层、自适应层及自组织层,如图5.1所示。 3. 多级描述 系统由若干可分的相互关联的子系统组成时,可将所有决策单元按一定支配关系递阶排列。同一级各单元要受上一级的干预,同时又对下一级决策单元施加影响。同一级决策单元如有相互冲突的决策目标,则由上一级决策单元加以协调。 根据决策目标的多少,系统又可分为单级单目标系统、单级多目标系统和多级多目标系统,分别如图5.2(a)、(b)和图5.3所示。 图5.2单级单目标系统和单级多目标系统 图5.3多级多目标的金字塔结构 单级多目标系统中各决策单元间互相独立工作,各决策单元有自己的控制目标,目标之间不一定矛盾,如有冲突用对策论来处理。多级多目标决策单元在不同级间递阶排列,形成了金字塔结构。同级之间不交换信息,上下级间交换信息,上一级负责协调同一级之间的目标冲突。协调的总目标是使全局达到优化或近似优化。 综上不难看出,多层描述实际上是对一个大系统的决策问题纵向分解,按任务复杂程度分成若干个子决策层,如图5.3中分成r层; 多级描述则是考虑到各子系统的关联将决策问题进行横向分解,如图5.3中分解成n级。这种结构又称为分层递阶结构。 5.2分层递阶控制的基本原理 对于较复杂的大系统,通常采用如图5.3所示的多级多目标金字塔式的控制结构。控制系统由许多控制器组成,使得第一级上的每个控制器只控制一个子系统,子系统之间又保持一定的联系。这样配置的控制器从上一级的控制器(或决策单元)接收信息,并用来控制下一级的控制器(或子系统)。各控制器之间目标可能存在的冲突依靠上一级控制器(或协调器)进行协调。 5.2.1协调的基本概念 我们知道,当为了执行上一级的任务,下一级的两个基层单位之间出现问题或矛盾时,通常上一级领导解决问题的办法是对下 图5.4二级结构的协调器 一级的两个单位进行协调。协调也是大系统控制理论中常用的、重要的基本概念。在多级多目标控制系统中,协调的目的是通过对下层控制器的干预来调整该层各控制器的决策,以满足整个系统控制总目标的要求。完成协调作用的决策单元称协调器,图5.4给出了一个二级结构的协调器,协调器作用于控制器的干预信号C就起到协调作用。 递阶控制的基本原理是把一个总体问题P分解成有限数量的子问题Pi,总体问题P的目标应使复杂系统的总体准则取得极值。设Pi是对子问题求解时,不考虑各子问题Pi之间存在关联而发生冲突的情况而得到的解,则有 [P1,P2,…,Pn]的解P的解(5.1) 因为各子系统(子问题)之间存在关联而产生冲突(也称耦合作用),所以必须引进一个干预向量(或协调参数),用来解决由于关联而产生的冲突,这就是协调的基本原理。 用Pi(λ)代替Pi,可得 [P1(λ),P2(λ),…,Pn(λ)]λ=λ的解P的解(5.2) 递阶控制中的协调问题就是要选择λ,从某个初值λ0经过迭代达到终值λ,从而使递阶控制达到最优的性能指标。 5.2.2协调的基本原则 协调有多种方法,但多数都是基于关联预测协调和关联平衡协调两个基本原则。 (1) 关联预测协调原则。 协调器要预测各子系统的关联输入、输出变量,下层各决策单元根据预测的关联变量求解各自的决策问题,然后把达到的性能指标值送给协调器,协调器再修正关联预测值,直到总体目标达到最优为止。这种协调模式称为直接干预模式,是一种可在线应用的协调方法。 (2) 关联平衡协调原则。 下层的各决策单元在求解各自的优化问题时,把关联变量当作独立变量来处理,即不考虑关联约束条件,而依靠协调器的干预信号来修正各决策单元的优化指标,以保证最后关联约束得以满足,这时目标函数中修正项的数值应趋于零。这种协调方法又称目标协调法。 5.3递阶智能控制的结构与原理 人的中枢神经系统是按多级递阶结构组织起来的,因此,多级递阶的控制结构已成为智能控制的一种典型结构。多级递阶智能控制系统是智能控制最早应用于工业实践的一个分支,它对智能控制系统的形成起到了重要作用。 5.3.1递阶智能控制的结构 多级递阶智能控制的结构如图5.5所示,按智能程度的高低分为组织级、协调级和控制级3级。 图5.5递阶智能控制系统的结构 (1) 组织级。 组织级是递阶智能控制系统的最高级,是智能系统的“大脑”,它具有相应的学习能力和决策能力,对一系列随机输入的语句能够进行分析,能辨别控制情况以及在大致了解任务执行细节的情况下,组织任务,提出适当的控制模式。 (2) 协调级。 协调级是递阶智能控制系统的次高级,它的主要任务是协调各控制器的控制作用,或者协调各子任务的执行。这一级只要求较低的运算精度,但要有较高的决策能力,甚至具有一定的学习能力。 (3) 控制级。 控制级是系统的最低级,它直接控制局部过程并完成子任务。控制级和协调级相反,这一级必须高精度地执行局部任务,而不要求具有更多智能。 5.3.2递阶智能控制的原理 多级递阶智能控制系统的结构与一般多级递阶控制系统的结构形式基本上相同,其差别主要表现在递阶智能控制采用了智能控制器,使这种控制系统更多地利用了人工智能的原理和方法,例如,组织器和协调器都具有利用知识和处理知识的能力,具有程度不同的自学习能力等。因此,大系统的多级多目标递阶智能控制原理具有如下特点: (1) 越是处于高层的单元,对系统行为的影响范围也就越大,要求具有高的决策智能性。 (2) 处于高级单元的决策周期要比处于低级单元的决策周期长,主要是处理涉及系统行为中变化较慢的因素。 (3) 越是处于高级,问题的描述就越会遇到更多不确定性,而更难以定量地予以公式化。 根据上述特点,再对比图5.5所给出的递阶智能控制的结构形式,显然,这样的设计形式是符合复杂系统递阶控制要求的。从最低级控制级→协调级→组织级,对智能性要求逐步提高,而对于这类多级递阶智能控制系统,智能性主要体现在高的层次上。为此,萨里迪斯等人提出了递阶智能控制系统是按照精度随着智能降低而提高的原理。 在高层次上遇到的问题常常具有不确定性,而在这个层次上采用基于知识的组织器是恰到好处的。因为基于知识的组织器便于处理定性信息和利用人的直觉推理逻辑和经验。因此,可以把多级递阶智能控制系统的工作原理作两次分解,以便于理解。从横向来看,把一个复杂系统分解成若干相互联系的子系统,对每个子系统单独配置控制器,这样便于直接进行控制,使复杂问题在很大程度上得到简化; 从纵向看,把控制整个复杂系统所需要的知识的多少,或者说所需要智能的程度,又从低到高作了一次分解,这就给处理复杂问题又带来了方便。协调器作为一个中间环节,解决了各子系统间因相互关联而导致的目标冲突。这样,多级递阶智能控制系统就能在最高级组织器的统一组织下,实现对复杂系统的优化控制。 图5.6给出了一个机械手的三级递阶智能控制系统的结构图,它实际上是一个具有视觉反馈的机械手递阶智能控制系统。 图5.6机械手递阶智能控制系统 5.4蒸汽锅炉的递阶模糊控制 5.4.1模糊变量与规则间的数量关系 定理5.1如果模糊集合F中含有m个元素,一个规则中含有n个系统变量,则规则的全集有mn个不同的规则。 证明当n=1时,规则集合有m个不同规则,因此定理成立。 假设n=n1时,定理成立。当n=n1+1时,则每个规则有n1+1个变量,如果加一个变量,相对应地有m个不同规则,换言之,每个对应n1+1个变量的规则(有mn1个这样的规则)将变成对应n1+1个变量的规则,因此,规则总数为 k=m×mn1=mn1+1=mn(5.3) 例5.1设模糊集合F={NB,NS,ZE,PS,PB},系统变量X={x1,x2,x3,x4},因此n=4,m=5,全集的规则数为k=54=625。如果n=5,m=5,则k=55=625×5=3125。 由式(5.3)可见,规则数是系统变量的指数函数。这意味着规则数随着系统变量的数目增加而迅速增加,这样的问题被称为“规则爆炸问题”。对一个多变量系统,控制规则数越多越难以实现模糊控制。为此,在复杂大系统模糊控制中采用递阶结构以解决“规则爆炸问题”。 5.4.2递阶模糊控制规则 用递阶方法建立模糊控制规则时,要选取最重要的参数作为系统的第一级变量,然后按照重要程度依次作为系统的第二级、第三级等变量。 设第一级的模糊规则如下: If(x1=a1,1,x2=a1,2,…,xn1=a1,n1) then y1=b1(5.4) 第i级(i>1)规则形式为 If(xNi+1=aN1,1,xNi+ni=aNi,ni,and yi-1=bi-1) then yi=bi(5.5) 其中,Ni=∑i-1j=1nj≤n,nj是第j级所用的系统变量个数。xj(j=1,2,…,n)是系统变量,yi(i=1,2,…,l-1)是第i级的输出,被作为第i+1级的变量。 在递阶结构中,第一级规则给出一个近似的输出y1,然后通过第二级规则集加以修正。第二级变量包括第一级的近似输出y1和式(5.5)所示的系统变量,第三级以后各级均以此类推。 第i级的规则集除了要考虑前级输出外,还得考虑一个或更多的第i级的系统变量。但如果在以后每一级,只加一个系统变量,则可以看出以后规则的总数将减少,如果把所有变量放在第一级,则此结构与传统的相同。这意味着,基于传统规则的模糊控制器是递阶模糊控制器的特殊形式。 定理5.2对于含有n个系统变量的递阶模糊控制结构,如果L是递阶级数,ni为第i级的变量数,其中包括第i-1级的输出变量(i>1),则控制规则的总数k为 k=∑Li=1mni(5.6) 其中,m是F中模糊集合数,且 n1+∑Li=2(ni-1)=n(5.7) 证明在第i级中,因有ni个变量,由定理5.1可知该级规则总数为mni,这适用于其他各级。规则总数等于每级规则数的总和,即k=∑Li=1mni,于是定理5.2得证。 如果ni=t为整数(i=1,2,…,L),则由式(5.7)可得L=(n-t)/(n-1)+1,于是 k=[(n-t)/(n-1)+1]mt(5.8) 由递阶结构得出的式(5.8)表明,规则全集数的减小为系统变量n的线性函数,而不是传统情况下的指数函数。 定理5.3在含有n个系统变量的递阶结构中,如果m≥2,且ni≥2(m、ni定义同定理5.2),则规则集合总数在ni=t=2时达到最小值,当ni=n1=n时达到最大值。 上述定理的证明较复杂,故省略。下面举例进一步解释定理5.2的结论。 例5.2为了便于同例5.1的问题进行比较,仍取n=4,m=5,且选n1=t=2,则由定理5.2可得L=3,k=3×mt=3×25=75。与例5.1的结果比较,可见在非递阶结构中需要625条规则,而在递阶结构中只需75条规则。显然,通过递阶结构大大地减少了规则总数。 定理5.3指出,当每级仅选两个变量时,规则数为最小。通过这种结构能简便地加减一个变量,而不必更改集合中的其他规则。这样,操作者利用经验通过对一些参数的尝试性试验,更有效地修正控制规则。 5.4.3蒸汽锅炉的两级递阶模糊控制系统 蒸汽锅炉的外部连接如图5.7所示。控制器的主要目的是使汽鼓(泡包)内的水位保持在期望值。蒸汽锅炉的动态模型有18个状态变量,基于其中4个变量,可以构造一个递阶模糊规则集,递阶模糊控制的闭环系统如图5.8所示。 图5.7蒸汽锅炉的外部连接图 图5.8蒸汽锅炉的递阶模糊控制系统 蒸汽锅炉汽鼓的动态模型为 dx/dt=Ax+Bdud+Bouo(5.9) 图5.9三角形隶属函数 其中,x是系统状态向量; A为系统矩阵; Bd为扰动输入矩阵; ud为扰动输入(阶跃函数); Bo是输入矩阵; uo为由模糊控制器获得的输入。 在本系统中,所有系统变量和输出都被归一化在论域[-1,1]中,这样,所有变量可以用一个相对统一的标准进行比较,模糊集合的隶属函数如图5.9所示。 本系统是具有两级的递阶控制结构,第一级FC系统选汽鼓水位和它的导数作为系统输入变量。第二级FC系统选作蒸汽排出量、泄流量和上升混合流量的一个线性函数信号的导数和给水量(第一级的输出)作为系统输入变量。采用上述的递阶模糊控制蒸汽锅炉给水的仿真表明,递阶模糊控制系统对于解决多变量系统的模糊控制问题的效果是显著的。 上述的递阶模糊控制系统,实际上是一种分层多闭环控制系统,因此,又称为分层递阶模糊控制系统。 从蒸汽锅炉递阶模糊控制系统例子可以看出: 尽管蒸汽锅炉的动态模型有18个状态变量,但起重要作用的状态变量仅为4个,体现了抓主要矛盾的思想; 虽然设计模糊控制规则,但并不排斥利用该系统中3个变量间存在线性函数关系,这样又使4个状态变量简化为仅有两个变量的系统,最终设计二级递阶模糊控制解决了问题。 5.5学习控制系统 5.5.1学习控制的基本概念 学习是人的基本智能之一,学习是为了获得知识,因此在控制中模拟人类学习的智能行为的所谓学习控制,无疑属于智能控制的范畴。 有关学习控制的概念从20世纪60年代以来虽有多种表述,但以1977年萨里迪斯给出的定义最具代表性。他指出,如果一个系统能对一个过程或其环境的未知特征所固有的信息进行学习,并将得到的经验用于进一步的估计、分类、决策和控制,从而使系统的品质得到改善,则称此系统为学习系统。将学习系统得到的学习信息用于控制具有未知特征的过程,这样的系统称为学习控制系统。 图5.10学习控制系统的方块图 根据萨里迪斯给出的学习系统的结构,学习控制系统组成的方块图如图5.10所示。其中未知环境包括被控动态过程及其干扰等,学习控制律可以是不同的学习控制算法,存储器用于存储控制过程中的控制信息及相关数据,性能指标评估是把学习控制过程中得到的经验用于不断地估计未知过程的特征以便更好地进行决策控制。 由于实现学习控制算法有多种途径,因此,学习控制系统的组成也会因学习算法的不同,在组成上有不同的结构形式。 5.5.2迭代学习控制 1984年,日本有本(S.Arimoto)等提出迭代学习控制算法,用于一类具有重复运行特性的被控对象,其任务是寻找控制输入,使得被控系统的实际输出轨迹在有限时间区间上沿整个期望输出轨迹实现零误差的完全跟踪,并且整个控制过程要求快速完成。这种算法不依赖于系统的精确数学模型,能以非常简单的方式处理不确定度相当高的非线性强耦合动态系统,因此迭代学习在求解非线性、强耦合、复杂系统的轨迹跟踪等方面得到应用。 所谓迭代学习控制,是指对于具有可重复性的被控对象,利用控制系统先前的控制经验,根据测量系统的实际输出信号和期望信号来寻找一个理想的输入特性曲线,使被控对象产生期望的运动。“寻找”的过程便是学习控制的过程。 迭代学习控制要求被控对象的运动具有可重复性,即系统每一次都做同样的工作; 在学习过程中,只需要测量实际输出信号和期望信号,对被控对象的动力学描述和参数估计的复杂计算均可以简化或省略。这就是迭代学习控制的主要优点。 迭代学习控制律用于具有可重复性运动的被控对象时,需要满足如下条件: (1) 每一次运行时间间隔T>0。 (2) 期望输出yd(t)是预先给定的,且是t∈[0,T]域内的函数。 (3) 每一次运行前,动力学系统的初始状态xk(0)相同,k是学习次数,k= 0,1,2,…。 (4) 每一次运行的输出yk(t)均可测,误差信号ek(t)=yd(t)-yk(t)。 (5) 下一次运行的给定uk+1(t)满足如下递推规律: uk+1(t)=F(uk(t),ek(t),r)(5.10) 其中r为系数。 (6) 系统的动力学结构在每一次运行中保持不变。 在满足上述条件的情况下,随着系统运行次数k的增加,即学习次数的增加,yk(t)将收敛于期望输出yd(t): limk→∞yk(t)=yd(t)(5.11) 迭代学习控制过程的原理如图5.11所示。 对于如图5.11所示的学习控制过程,有本等人提出了学习控制律的一般形式为 uk+1(t)=f(uk,ek,r)=uk(t)+Γddt+Φ+Ψ∫dtek(t)(5.12) 图5.11迭代学习控制过程原理 其中,uk(t)、uk+1(t)分别是第k次、第(k+1)次的给定; Γ,Φ,Ψ均为增益矩阵; ek(t)是第k次的响应误差; r为系数。 由式(5.12)可见,系统在第k次学习后的第(k+1)次给定是上一次的给定及响应误差的函数。式(5.12)称为PID型学习控制律。 有本等人提出的上述学习控制律具有控制律简单,计算量小,便于工程实现的特点。学习控制律f(uk,ek,r)在计算机上实现的过程如图5.12所示。只要动力学系统承受的未知干扰在每一次实验中都以同样的规律或方式出现,学习控制均可有效地削弱以至于消除其影响。 图5.12学习控制律的计算机实现 迭代学习控制的收敛性问题是学习控制系统实际应用中的一个关键。有本等学者对这一问题做了大量研究,从理论上证明了若干种学习控制律在线性定常系统、线性时变系统以及非线性系统中的收敛性。 5.5.3重复学习控制 1981年,日本井上(Inoue)等针对连续SISO线性时不变系统用于高精度跟踪一个周期已知的参考输入而提出了一种重复学习控制方法。如果设计能产生固定周期的周期信号,并置于闭环内作为内模,那么任何周期的周期信号均可由一个纯滞后环节e-Ts来产生。内模原理指出,如果这种周期信号产生器的闭环传递函数包含在闭环系统内,那么可实现对外部周期信号的渐进跟踪。 图5.13给出了一种应用较多的重复控制系统结构,其中P(s)是广义被控对象,G(s)=P(s)/(1+P(s))。设计问题主要是如何选择和优化动态补偿器B(s)和低通滤波器Q(s)。控制器参数的选择涉及系统稳态性能、鲁棒性和暂态性能的折中。 图5.13插入式重复控制系统 上述的重复学习控制器只要保证系统周期的不变性,经过多个周期的重复训练后,可在干扰不确定的情况下获得重复控制器的控制规律,使得系统在重复控制作用下的实际输出逐渐逼近期望的输出。 在采用其他控制方法很难获得很高的控制精度的情况下,重复控制因其控制精度高、实现简单以及控制性能的非参数依赖性,成为解决周期性外激励信号控制问题的一种有效方法。已经提出多种结构和重复控制算法,包括连续时延内模重复控制、离散时延内模重复控制、有限维重复控制以及非线性系统的重复控制方法。 重复学习控制和迭代学习控制都是针对具有重复运行特性的对象,都是基于偏差函数来更新下一次的输入。但迭代控制每运行一次初始状态被复原一次,每一次控制都是独立进行的。重复学习控制构成一个完全闭环系统,能进行连续运行。因此,在稳定性方面迭代学习控制系统要优于连续闭环控制的重复控制系统。 5.5.4其他学习控制形式 1. 具有学习功能的自适应控制 本书在2.7.2节中已指出自适应控制系统应具有两个功能: 一是常规的控制功能,由闭环反馈控制回路实现; 二是学习功能,由自适应机构组成的另一个反馈控制回路实现,其控制对象是控制器本身。 不难看出,自适应控制系统具有学习功能,但这种学习的结构形式与上面介绍的学习控制系统的结构形式是不同的。自适应控制的学习功能是通过常规控制器控制性能的反馈、评价等信息,进而通过自适应机构对控制器的参数甚至结构进行在线调整或校正,以使下一步的控制性能要优于上一步的,这便是学习。可以认为,自适应学习系统是一种二级递阶控制的结构,由双闭环控制系统组成。其中常规控制回路是递阶结构的低级形式,完成对被控对象的直接控制; 包含自适应机构和常规控制器的第二个回路是递阶结构的高级形式,它是由软件实现的一种反馈控制形式,完成对控制器控制行为的学习功能。 迭代学习控制系统和重复学习控制系统没有像自适应控制系统那样的二级递阶结构,而只是增加了存储器用以记忆以往的控制经验。迭代控制中的学习是通过对以往“控制作用与误差的加权和”的经验记忆实现的。系统不变形的假设以及记忆单元的间断重复训练是迭代学习控制的本质特征。而重复学习控制的记忆功能由重复控制器完成,它对控制作用的修正不是间断离线而是连续实现的。 2. 基于神经推理的学习控制 在神经网络直接充当控制器的神经控制系统中,神经网络实际上是通过学习算法改变网络中神经元间的联结权重,从而改变神经网络输入输出间的非线性映射关系,逐渐逼近被控动态过程的逆模型来实现控制的任务。神经网络的这种学习和迭代学习控制、重复学习控制中的学习形式是不一样的。前者的学习是出于逼近的思想,而后者是利用控制系统先前的控制经验,根据测量系统的实际输出信号和期望信号来寻找一个理想的输入特性曲线,使被控对象产生期望的运动。“寻找”的过程便是学习控制的过程。 本书将基于神经推理的学习控制形式归为基于神经网络的智能控制范畴。 3. 基于模式识别的学习控制 早在1964年,史密斯就提出用性能模式分类器来学习最优控制的方法,从而将控制问题转化为一个模式分类问题。1968年,门德尔等人把模式识别技术用于确定复杂过程的工况,并进行控制。1977年,布里斯托尔(E.H.Bristol)提出了基于模式识别的自整定PID控制器。1981年,萨里迪斯对于模式识别方法用于控制系统做了深入的论述。1989年,拉隆德(A.M.Lalonde)等人提出了采用模式分析构成广义预测控制器,通过对输入输出数据分析,判断控制器的输出是否达到对过程的充分激励,这些数据用于系统辨识生成控制器的内模。 把模式识别的原理及方法用于控制系统所遇到的首要问题,就是如何描述被控对象的动力学特性。对于有参考模型的被控对象,模式识别主要是作为一种信号处理手段来使用,但由于计算量较大而无实用价值。对于一些无法建模或无法进行参数估计的复杂生产过程,模式识别成为获取工况信息和获取知识的重要手段。 不难看出,越是复杂的被控过程,越是难以建立精确模型,越是难以获得被控动态过程的精确定量信息。在这种情况下,如何在控制决策上模拟娴熟的操作者的形象思维功能,也就是如何将模式识别的方法用于智能控制所要解决的问题。 基于模式识别的智能控制实际上是模拟人工控制过程中识别动态过程特征的思想,然后根据人的控制经验,对于不同的动态过程采取不同的控制策略。通过这样不断地识别,又不断地调整控制策略,使控制性能不断提高的过程体现出一种学习行为。 4. 异步自学习控制 邓志东在其博士论文中考虑到迭代自学习控制和重复自学习控制的共同点和区别,提出了将这两种算法统一起来的异步自学习控制的理论框架。其基本思想是: 将第k次重复训练的迭代自学习控制系统看成是对第k个重复周期的“间歇”的重复自学习控制系统,且前者的训练时间等于后者的重复周期; 可将重复自学习控制系统的重复控制器视为一个记忆系统。这样一来,迭代自学习控制和重复自学习控制就是异步自学习控制的特例,即分别是具有“间歇”和“连续”学习的异步自学习控制。 5.6基于规则的自学习控制系统 一个智能控制系统通过在线实时学习,自动获取知识,并能将所学得的知识用来不断改善对于一个具有未知特征过程的控制性能,这种系统称为自学习控制系统。 自学习控制系统虽然和自适应控制系统有许多相似之处,但是它们之间有很大的区别,自适应控制系统使用更多的先验数据,因此常常是更加结构化,而典型的自学习控制算法则无固定的结构,更具有一般性。自学习控制系统具有较高的拟人自学习功能。 基于产生式规则表示知识的自学习控制系统,称为基于规则的自学习控制系统,又称为产生式自学习控制系统。 5.6.1产生式自学习控制系统 一种产生式自学习控制系统的结构如图5.14所示。自学习控制器中的综合数据库用于存储数据或事实,接受输入、输出和反馈信息,而控制规则集主要存储控制对象或过程方面的规则、知识,它是由〈前提→结论〉或〈条件→行动〉的产生式规则组成的集合。 图5.14产生式自学习控制系统 自学习控制系统中的推理机在产生式自学习控制系统中隐含在控制策略和控制规则集中,控制策略的作用是将产生式规则与事实或数据进行匹配控制推理过程。 上述的综合数据库、控制规则集、学习单元及控制策略4个环节构成了产生式自学习控制系统的核心部分——产生式自学习控制器。 产生式自学习控制仍是基于负反馈控制的基本原理。通常,控制作用U根据误差E、误差的变化E·及误差的积分值或积累值∑E的大小、方向及其变化趋势,可由专家经验知识和负反馈控制的理论设计出如下的产生式规则: IF E and E· and∑E THEN U 这种控制策略是由误差数据驱动而产生的控制作用,根据控制效果和评价准则,可以通过学习单元采用适当的学习方法进行学习来对施加于被控对象的控制作用进行校正,以逐步改善和提高控制系统的性能。 一种线性再励学习校正算法为 U(n+1)=U(n)+(1-α)ΔU(n)(5.13) 式中,U(n+1),U(n)分别为第n+1次和第n次采样的控制作用; ΔU(n)为第n次学习的校正量; α为校正系数,可根据专家经验选取0~1的某一小数,或根据优选法取a=0.618。 校正量ΔU(n)由系统的输入、输出及控制量的第n次和第n-1次数据,根据所设计的学习模型加以确定。 5.6.2基于规则的自学习模糊控制举例 1. 自学习模糊控制算法 设系统的一种理想的响应特性可用一个性能函数表示为 ΔY=pf(e,Δe)(5.14) 其中,ΔY是系统输出Y的修正量; e和Δe分别是系统输出的误差和误差变化。 自学习控制算法的原理如图5.15所示。把每一步的控制量和测量值都存入存储器。由测量系统当前时刻的输出Y(k)可获得e(k)和Δe(k),由性能函数求出ΔY=pf[e(k),Δe(k)],则理想的输出应为Y+ΔY。 图5.15自学习模糊控制算法原理 设被控对象的增量模型为 ΔY(k)=M[Δeu(k-τ-1)](5.15) 式中,ΔY(k)为输出增量; Δeu(k)为控制量增量; τ为纯时延步数。 由增量模型可计算出控制量的修正量Δeu(k-τ-1),从存储器中取出eu(k-τ-1),则控制量修正为eu(k-τ-1)+Δeu(k-τ-1),将它转变成模糊量Au。再取出τ+1步前的测量值并转换成相应的模糊量A1,A2,…,Ak,由此构成一条新的控制规则 Eiu=mmf[(E1∧A1)×(E2∧A2)×…×(Ek∧Ak)]·Au(5.16) 其中,mmf(A)=max μA(e)定义一个模糊子集A的高度,A的高度即是论域U上元素e的隶属度最大值。 如果存储器中有以A1,A2,…,Ak为条件的规则,则以新规则替换,否则把新规则写入存储器。这就完成了一步学习控制,每一步都重复这种操作,控制规则便不断完善。 自学习控制算法中的增量模型M并不要求很精确,只是模型越精确,自学习过程的收敛速度也越快。 2. 自学习控制算法举例 设一单输入单输出过程,只能测量其输出Y(k)。以误差e和误差变化Δe为控制器的输入变量。对误差和误差变化量进行归一化处理,先选定它们的单位尺度分别为e和Δe,则有 e=e/e,|e|≤e 1,|e|>e(5.17) Δe=Δe/Δe,|Δe|≤Δe 1,|Δe|>Δe(5.18) 图5.16隶属函数曲线 归一化的误差论域Ge和误差变化量论域GΔe均含有6个语言变量: NB,NM,NS,PS,PM,PB,它们的隶属函数都具有相同的对称形状,如图5.16所示。其中论域内的元素分别为-1,-0.6,-0.2,0.2,0.6,1。 控制规则用二维数组R(I,J)表示,I、J为1,2,…,6,分别对应于误差论域和误差变化论域上的NB,NM,…,PM,PB等级。数组元素值代表了Au的中心元素。假定Au的隶属函数都具有相同的对称形状,R(I,J)可以写成一个6×6矩阵,称其为控制器参数矩阵。 采用性能函数ΔY=pf(e,Δe)=12(e+Δe),设MY、Me、MΔe分别为修正后的Y、e和Δe,因为e(k)=R-Y(k),MY=Y+ΔY,所以 Me(k)=e(k)-ΔY(5.19) MΔe(k)≈Δe(k)-ΔY(5.20) 于是 Me(k)+MΔe(k)≈e(k)+Δe(k)-2ΔY(5.21) 因为ΔY=12(e+Δe),所以Me(k)+MΔe(k)→0,可见用ΔY修正Y的结果使ΔY趋于零,导致系统的输出趋近于理想的响应。 通过对下述被控对象 G1(s)=10e-16ss(s+1)(5.22) G2=(s2+3s+5)e-4ss(s2+s+2)(5.23) 进行自学习控制的计算机数字仿真结果表明,对第一种对象,当采样周期为0.2s,加入方差σ2= 0.33的测量噪声,其幅度为阶跃幅度的10%。未学习前,阶跃响应出现振荡,学习3次后,阶跃响应品质已很好。对于第二种对象,采样周期为1s,噪声参数同前。未学习前,由于控制器的初始参数设置不好,阶跃响应振荡较大,3次学习后,阶跃响应明显得到改善。 启迪思考题 5.1人们处理或管理一个大系统时,为什么往往分成3个级别(或层次)?如国家行政管理分为中央、省和市; 大学分为校、院、系; 萨里迪斯提出的递阶控制分为组织级、协调级、控制级等。 5.2萨里迪斯等人提出的递阶智能控制系统是按照精度随着智能降低而提高的原理的本质是什么? 5.3试分析一个人坐着在桌子上写字的情形,大脑、上肢和手是如何构成三级递阶智能控制写出字的。 5.4什么是协调?协调有哪些基本原则? 5.5大系统的多级多目标递阶智能控制具有什么特点? 5.6在5.4.3节蒸汽锅炉递阶模糊控制中,尽管蒸汽锅炉动态模型有18个状态变量,为什么最后控制系统设计为二级递阶模糊控制结构? 5.7什么是学习?什么是学习控制?什么叫自学习控制? 5.8什么是迭代学习控制? 5.9什么是重复学习控制?它和迭代学习控制有何异同? 5.10什么是异步学习控制?它和迭代学习控制及重复学习控制之间存在什么关系? 5.11具有学习功能的自适应控制能否称为学习控制?为什么? 5.12神经网络具有学习功能,神经网络控制能否归为学习控制?为什么? 5.13基于模式识别的学习控制适合哪一类对象?为什么?