第5章不确定性推理 许多人工智能系统具有复杂性、不完全性、模糊性或不确定性,当采用产生式系统或专家系统结构时,要求设计者建立某种不确定性问题的代数模型及其计算和推理过程。为此,本章讨论一些常用的不确定性推理方法。 5.1不确定性推理概述 不确定性是智能问题的本质特征,无论是人类智能还是人工智能,都离不开不确定性的处理。可以说,智能主要反映在求解不确定性问题的能力上。因此,不确定性推理模型是人工智能的一个核心研究课题。 5.1.1什么是不确定性推理 不确定性推理(Uncertainty Reasoning),又称不精确推理(Inexact Reasoning),是相对于确定性推理提出来的。确定性推理的过程都是按照必然的因果关系或严格的逻辑推论进行的,是从已知事实出发,通过运用相关知识逐步推出结论的思维过程。其中,获得的推理结论也是严格按照一定的规则予以肯定或否定。一般来说,确定性推理有规可循、有据可依,能够且容易形成完备算法,往往有满足唯一解的特性,实现的难度较低。但是在运动规律的作用下,精确性往往是暂时的、局部的、相对的,而不精确性才是必然的、动态的、永恒的。可见,不精确性是科学认识中的重要规律,进行不确定性推理的研究是必需的,也是进行机器智能推理的主要工具之一。 所谓不确定性推理,是指推理中所使用的前提条件、判断是不确定的或者是模糊的,因而推理所得出的结论和判断也是不精确的、不确定或模糊的。一般来说,出现不确定性推理的原因和特征有如下几个。 ① 证据的不确定性; ② 规则的不确定性; ③ 方法的不确定性。 以上“三性”的存在决定了推理的最后结果具有不确定但却近乎合理的特性,人们把这种性质的推理及其理论和方法总称为不确定性推理。 5.1.2知识不确定性的来源 研究不确定性推理首先要研究知识的不确定性。知识的不确定性用相应的知识表示模式与之对应,以便进行推理与计算,还需用适当的方法描述其不确定性及程度。常见的知识不确定性主要有以下几个方面。 (1) 随机性。这是一种最为常见的知识不确定性,随机性使我们的生活充满了未知的魅力,是创造性不可缺少的因素,为我们提供了种种机遇。确定性可以告诉我们事物的普遍规律,这也许是群体的统计规律,也许仅是一个相对的真理。而个体的“机遇”是一种特殊的随机性。小概率的机遇一般不会出现,一旦出现,往往就会创造奇迹。 (2) 模糊性。模糊性能够用较少的代价传送足够的信息,并能对复杂事物做出高效率的判断和处理。也就是说,模糊性有助于提高效率。1965年,扎德(L.A.Zadeh)的论文Fuzzy Sets正式创立了模糊集合理论。扎德深入分析了模糊性、近似性以及随机性,主张用模糊性作为基本的研究对象,提出了隶属度、隶属函数、模糊集合等基本概念。模糊性使我们的生活简单而有效,借助模糊性可以对复杂事物做出高效率的判断和处理。例如,医生可以根据患者的模糊症状做出正确的判断,画家不用精确测量和计算就能画出栩栩如生的风景人物等。 (3) 粗糙性。知识粗糙性是由粗糙集理论通过不可区分关系和集合包含关系定义的。粗糙集理论最早是由波兰数学家帕夫拉克(Z.Pawlak)于1982年提出的一种不确定性数据分析理论,其基本思想是在保持分类能力不变的前提下,通过知识约简剔除数据中冗余的信息,从而导出问题的正确决策或分类。这一理论为处理具有不精确和不完全信息的分类问题提供了一种新的框架。粗糙集理论具有如下特点: ①从新的视角对知识进行了定义,把知识看作对论域的划分,从而认为知识是有粒度的; ②认为知识的不精确性是由知识粒度太大引起的; ③为处理数据(特别是带噪声、不精确或不完全数据)分类问题提供了一套严密的数学工具,使得对知识能够进行严密的分析和操作。粗糙集理论将研究对象的全体称为论域,利用等价关系将论域划分为若干互斥的等价类,作为描述论域中任意集合的基本信息粒子。其利用两个可定义的集合——上近似集合和下近似集合来近似表达空间中的任意概念,这种方法自然地模拟了人类的学习和推理过程,学习到的知识采用产生式规则表示,容易被用户理解、接受和使用,因此得到了广泛的重视。粗糙集的一个显著特点是不需要用户提供数据之外的任何先验知识,比如统计学中的概率分布和模糊集中理论中的隶属函数,所以对问题的不确定性的描述和处理比较客观。 另外,知识的不确定性还来自知识的不完备性、不协调性和非恒常性。 知识的不完备性: 包括知识内容的不完整、知识结构的不完备等。内容的不完整,可能来源于获取知识时观测不充分、设备不精确; 知识结构的不完备可能因为人的认知能力、获取手段的限制等,造成对解决某个特定问题的背景和结构认识不全,忽略了一些重要因素。 知识的不协调性: 是指知识内在的矛盾,不协调的程度可以依次为冗余、干扰、冲突等。不协调性是知识不确定性的重要体现,人们不可能也没必要在所有场合下都试图消除知识的不协调性,追求知识的一致性,要把不协调看成知识的一种常态,允许包容、并蓄、折中、调和。 知识的非恒常性: 是指知识随时间的变化而变化的特性。人类对自然、社会乃至自身的认识都是一个由不知到知、由不深刻到深刻,不断更新的过程,是一个否定之否定的过程。人类的知识是无限发展的,不可能永远停留在某个水平上。 5.1.3不确定性推理方法分类 目前,不确定性推理方法主要分为控制法和模型法。 控制方法: 是通过识别领域中引起不确定性的某些特征及相应的控制策略来限制或减少不确定性对系统产生的影响。控制方法没有处理不确定性的统一模型,其效果极大地依赖于控制策略,主要包括相关性指导、机缘控制、启发式搜索、随机过程控制等。 模型方法: 是把不确定证据和不确定知识分别与某种度量标准对应起来,并且给出更新结论不确定性算法,从而建立不确定性推理模式。模型方法具体又可分为数值模型方法和非数值模型方法两类。按其依据的理论不同,数值模型方法主要包括基于概率的方法和基于模糊理论的推理方法。 纯概率方法虽然有严格的理论依据,但通常要求给出事件的先验概率和条件概率,而这些数据又不易获得,因此使其应用受到限制。人们又在概率论的基础上提出了一些新的理论和方法,主要有主观Bayes方法、可信度方法、证据理论等,从而为不确定性的传递和合成提供了许多现成的公式,是最早成功应用于不确定性推理的重要方法之一。 5.2不确定性推理的基本问题 推理是运用知识求解问题的过程,是证据和规则相结合得出结论的过程。知识的不确定性导致了所产生的结论的不确定性。不确定性推理反映了知识不确定性的动态积累和传播过程,推理的每一步都需要综合证据和规则的不确定因素,通过某种不确定性测度,寻找尽可能符合客观实际的计算模式,通过不确定测度的传递计算,最终得到结果的不确定测度。在专家系统中,不确定性表现在证据、规则和推理三个方面,需要对专家系统中的证据与规则给出不确定性描述,并在此基础上建立不确定性的传递计算方法。因此,实现对不确定性的处理应解决表示问题、计算问题和语义问题。 5.2.1表示问题 表示问题指的是采用什么方法描述不确定性,这是解决不确定性推理的关键一步,通常有数值表示方法和非数值的语义表示方法。数值表示便于计算、比较; 非数值表示是一种定性的描述,以便较好地解决不确定性问题。 在专家系统中,“不确定性”一般分为规则的不确定性以及证据的不确定性。 1) 规则不确定性的表示 规则的不确定性是指用相应的规则表示模式与之对应,以便于进行推理与计算,还须用适当的方法把规则的不确定性及其程度描述表达出来。一般用(E→H,f(H,E))表示规则的不确定性,它表示相应规则的不确定性程度,称为规则强度。 2) 证据不确定性的表示 证据的不确定性(命题E,C(E))有两种来源: 初始证据(由用户给出); 前面推出的结论作为当前证据(通常由计算得到)。一般来说,证据不确定性的表示方法与知识不确定性的表示方法保持一致,通常也是一个数值,代表相应证据的不确定性程度,称为动态强度。 规则和证据不确定性的程度常用可信度来表示。例如,在专家系统MYCIN中,采用可信度表示规则及证据的不确定性,取值范围为[-1,1]。当可信度大于零时,其数值越大,表示相应的规则或证据越接近于“真”; 当可信度小于零时,其数值越小,表示相应的规则或证据越接近于“假”。 5.2.2计算问题 计算问题主要指不确定性的传播和更新,即获得新信息的过程。在领域专家给出的规则强度和用户给出的原始证据的不确定性的基础上,计算问题定义了一组函数,求出结论的不确定性度量,主要包括如下三个方面。 1) 不确定性的传递算法。 ① 在每一步推理中,如何把证据和规则的不确定性传递给结论。 ② 在多步推理中,如何把初始证据的不确定性传递给结论。 也就是说,已知规则的前提E的不确定性C(E)和规则强度f(H,E),求假设H的不确定性C(H),即定义函数f1使得: C(H)=f1(C(E),f(H,E))(5.1) 2) 结论不确定性合成 推理中有时会出现这样的一种情况,用不同的规则进行推理得到了相同的结论,但不确定性的程度却不相同。 即已知由两个独立的证据E1和E2求得的结论H的不确定性C1(H)和C2(H),求证据E1和E2的组合导致的结论H的不确定性C(H),定义函数f2使得: C(H)=f2(C1(H),C2(H))(5.2) 3) 组合证据的不确定性算法 即已知证据E1和E2的不确定性C(E1)和C(E2),求证据E1和E2的析取和合取的不确定性,定义函数f3和f4使得: C(E1|E2)=f3(C(E1),C(E2)) C(E1∫E2)=f4(C(E1),C(E2))(5.3) (5.4) 目前,关于组合证据不确定性的计算,常用的方法有如下三种。 ① 最大最小法: C(E1|E2)=min{C(E1),C(E2)} C(E1∫E2)=max{C(E1),C(E2)}(5.5) (5.6) ② 概率方法: C(E1|E2)=C(E1)C(E2) C(E1∫E2)=C(E1)+C(E2)-C(E1)C(E2)(5.7) (5.8) ③ 有界方法: C(E1|E2)=max{0,C(E1)+C(E2)-1} C(E1∫E2)=min{1,C(E1)+C(E2)}(5.9) (5.10) 5.2.3语义问题 语义问题指上述表示和计算的含义是什么,即对它们进行解释。如C(H,E)可理解为当前提E为真时,对结论H为真的一种影响程度,C(E)可理解为E为真的程度。 目前,在人工智能中,处理不确定性问题的主要数学工具有概率论和模糊数学,但是它们研究和处理的是两种不同的不确定性。概率论研究和处理随机现象,事件本身有明确的含义,只是由于条件不充分,使得在条件和事件之间不能出现决定性的因果关系(随机性)。模糊数学研究和处理模糊现象,概念本身就没有明确的外延,一个对象是否符合这个概念是难以确定的(属于模糊的)。无论采用什么数学工具和模型,都需要对规则和证据的不确定性给出度量。 规则的不确定性度量f(H,E),需要定义在下述三种典型情况下的取值。 (1) 若E为真,则H为真,这时f(H,E)=? (2) 若E为真,则H为假,这时f(H,E)=? (3) 若E对H没有影响,这时f(H,E)=? 对于证据的不确定性度量C(E),需要定义在下述三种典型情况下的取值。 (1) E为真,C(E)=? (2) E为假,C(E)=? (3) 若对E一无所知,C(E)=? 对于一个专家系统,一旦给定了上述不确定性的表示、计算及其相关的解释,就可以从最初的观察证据出发,得出相应结论的不确定性程度。专家系统的不确定性推理模型指的是证据和规则的不确定性的测度方法、不确定性的组合计算模式。 5.3概率方法 长期以来,概率论的有关理论和方法都被用来度量不确定性的重要手段,因为它不仅有完善的理论,而且还为不确定性的合成与传递提供了现成的公式,因而它被最早用于不确定性知识的表示和处理,像这样纯粹用概率模型来表示和处理不确定性的方法称为纯概率方法或概率方法。 5.3.1概率论基础 定义5.1全概率公式 设事件A1,A2,…,An满足: (1) 任意两个事件都互不相容,即当i≠j时,有Ai∩Aj=(i=1,2,…,n; j=1,2,…,n); (2) P(Ai)>0(i=1,2,…,n); (3) 样本空间D是各个Ai(i=1,2,…,n)集合的并集,即D=∪ni=1Ai。 则对任何事件B来说,有式(5.11)成立,即: P(B)=∑ni=1P(Ai)P(B|Ai)(5.11) 该公式称为全概率公式,它提供了一种计算P(B)的方法。 定义5.2Bayes公式 设事件A1,A2,…,An满足: (1) 任意两个事件都互不相容,即当i≠j时,有Ai∩Aj=(i=1,2,…,n; j=1,2,…,n); (2) P(Ai)>0(i=1,2,…,n); (3) 样本空间D是各个Ai(i=1,2,…,n)集合的并集,即D=∪ni=1Ai。则对任何事件B来说,有式(5.12)成立,即: P(Ai|B)=P(Ai)P(B|Ai)P(B),i=1,2,…,n(5.12) 该公式称为Bayes公式。其中P(Ai)是事件Ai的先验概率,P(B|Ai)是在事件Ai发生条件下事件B的条件概率; P(Ai|B)是在事件B发生条件下事件Ai的后验概率。 如果把全概率公式代入Bayes公式,则有: P(Ai|B)=P(Ai)P(B|Ai)∑nj=1P(Aj)P(B|Aj),i=1,2,…,n(5.13) 这是Bayes公式的另一种形式。该公式给出了用逆概率P(B|Ai)求原概率P(Ai|B)的方法。 5.3.2经典概率方法 设有如下产生规则: IFETHENHi,i=1,2,…,n 其中,E为前提条件; Hi为结论,具有随机性。 根据概率论中条件概率的含义,我们可以用条件概率P(Hi|E)表示上述产生式规则的不确定性程度,即表示为在证据E出现的条件下,结论Hi成立的确定性程度。 对于复合条件: E=E1ANDE2AND…ANDEm 可以用条件概率P(Hi|E1,E2,…,Em)作为证据E1,E2,…,Em出现时结论H的确定性程度。 显然,这是一种很简单的方法,只能用于简单的不确定性推理。另外,由于它只考虑证据为“真”或“假”这两种极端情况,因而使其应用受到了限制。 5.3.3逆概率方法 1. 逆概率方法的基本思想 经典概率方法要求给出在证据E出现情况下结论Hi的条件概率P(Hi|E)。这在实际应用中是相当困难的。逆概率方法根据Bayes公式,用逆概率P(E|Hi)来求原概率P(Hi|E)。确定逆概率P(E|Hi)比确定原概率P(Hi|E)要容易些。例如,若以E代表咳嗽,以Hi代表支气管炎,若要得到条件概率P(Hi|E),就需要统计在咳嗽的人中有多少是患支气管炎的,统计工作量较大,而要得到逆概率P(E|Hi)相对容易些,因为这时仅仅需要统计在患支气管炎的人中有多少人是咳嗽的,患支气管炎的人毕竟比咳嗽的人少得多。 2. 单个证据的情况 如果用产生式规则 IFETHENHi,i=1,2,…,n 中前提条件E代替Bayes公式中B,用Hi替代公式中的Ai,就可得到 P(Hi|E)=P(Hi)P(E|Hi)∑nj=1P(Hj)P(E|Hj),i=1,2,…,n(5.14) 这就是说,当已知结论Hi的先验概率P(Hi),并且已知结论Hi(i=1,2,…,n)成立时前提条件E所对应的证据出现条件概率P(E|Hi),就可用式(5.14)求出相应证据出现时结论Hi的条件概率P(Hi|E)。 例5.1设H1、H2、H3分别是三个结论,E是支持这些结论的证据,且已知: P(H1)=0.3,P(H2)=0.4,P(H3)=0.5 P(E|H1)=0.5,P(E|H2)=0.3,P(E|H3)=0.4 求P(H1|E),P(H2|E)及P(H3|E)的值各是多少。 解: 根据式(5.14)可得: P(H1|E)=P(H1)P(E|H1)P(H1)P(E|H1)+P(H2)P(E|H2)+P(H3)P(E|H3) =0.3×0.50.3×0.5+0.4×0.3+0.5×0.4 =0.32 同理可得: P(H2|E)=0.26 P(H3|E)=0.43 由此例可以看出,由于证据E的出现,H1成立的可能性略有增加,H2、H3成立的可能性有不同程度的下降。 3. 多个证据的情况 对于有多个证据E1,E2,…,Em和多个结论H1,H2,…,Hn,并且每个证据都以一定程度支持结论的情况,上面的式(5.14)可进一步扩充为 P(Hi|E1,E2,…,Em)=P(Hi)P(E1|Hi)P(E2|Hi)…P(Em|Hi)∑nj=1P(Hj)P(E1|Hj)P(E2|Hj)…P(Em|Hj),i=1,2,…,n(5.15) 此时,只要已知Hi的先验概率P(Hi)以及Hi成立时证据E1,E2,…,Em出现的条件概率P(E1|Hi),P(E2|Hi),…,P(Em|Hi),就可利用上式计算出在E1,E2,…,Em出现情况下Hi的条件概率P(Hi|E1,E2,…,Em)。 例5.2设已知: P(H1)=0.4,P(H2)=0.3,P(H3)=0.3 P(E1|H1)=0.5,P(E1|H2)=0.6,P(E1|H3)=0.3 P(E2|H1)=0.7,P(E2|H2)=0.9,P(E2|H3)=0.1 求P(H1|E1,E2)、P(H2|E1,E2)及P(H3|E1,E2)的值各是多少。 解: 根据式(5.15)可得: P(H1|E1,E2) =P(H1)P(E1|H1)P(E2|H1)P(H1)P(E1|H1)P(E2|H1)+P(H2)P(E1|H2)P(E2|H2)+P(H3)P(E1|H3)P(E2|H3) =0.5×0.7×0.40.5×0.7×0.4+0.6×0.9×0.3+0.3×0.1×0.3 =0.45 同理可得: P(H2|E1,E2)=0.52 P(H3|E1,E2)=0.03 由此例可以看出,由于证据E1和E2的出现,H1和H2成立的可能性有不同程度的增加,H3成立的可能性下降了。 4. 逆概率方法的优缺点 在实际应用中,这种方法有时是很有用的。例如,如果把Hi(i=1,2,…,n)当作一组可能发生的疾病,把Ej(j=1,2,…,m)当作相应的症状,P(Hi)是从大量实践中经统计得到的疾病Hi发生的先验概率,P(Ej|Hi)是疾病Hi发生时观察到的症状Ej的条件概率,则当对某患者观察到有症状E1,E2,…,Em时,应用Bayes公式就可以计算出P(Hi|E1,E2,…,Em),从而得知患者患疾病Hi的可能性。 逆概率方法的优点是它有较强的理论背景和良好的数学特征,当证据及结论都彼此独立时计算的复杂度比较低。其缺点是要求给出结论Hi的先验概率P(Hi)及证据Ej的条件概率P(Ej|Hi),尽管有些时候P(Ej|Hi)比P(Hi|Ej)相对容易得到,但总的来说,要想得到这些数据仍然是一件相对困难的工作。另外,Bayes公式的应用条件是很严格的,它要求各事件相互独立等。如若证据间存在依赖关系,就不能直接使用这个方法。 5.4主观Bayes方法 在许多情况下,同类事件发生的频率不高,甚至很低,无法做概率统计,这时一般是根据观测到的数据,凭领域专家的经验给出一些主观上的判断,称为主观概率。概率一般可以解释为对证据和知识的主观信任度。概率推理中起关键作用的是Bayes公式,它是主观Bayes方法的基础。 主观Bayes方法是杜达(R.O.Duda)等于1976年提出的一种不确定性推理模型,是最早用于处理不确定性推理的方法之一,已成功应用于地矿勘探专家系统PROSPECTOR中。 5.4.1规则不确定性的表示 1. 规则不确定性表示方法 在主观Bayes方法中,规则的不确定性可表示为 IFETHEN(LS,LN)H 其中,(LS,LN)用来表示规则强度。LS和LN的表示形式如下。 (1) 充分性度量(LS)定义为 LS=P(E|H)P(E|瘙綈H) 其表示E对H的支持程度,取值范围为[0,+∞],由专家给出。 (2) 必要性度量(LN)定义为 LN=P(瘙綈E|H)P(瘙綈E|瘙綈H)=1-P(E|H)1-P(E|瘙綈H) 其表示↓E对H的支持程度,即E对H为真的必要性程度,取值范围为[0,+∞],也是由专家凭经验给出。 下面进一步讨论LS和LN的含义。由Bayes公式可知 P(H|E)=P(H)×P(E|H)P(E) P(瘙綈H|E)=P(瘙綈H)×P(E|瘙綈H)P(E) 两式相除得: P(H|E)P(瘙綈H|E)=P(H)×P(E|H)P(瘙綈H)×P(E|瘙綈H)(5.16) 为讨论方便,下面引入几率函数 O(X)=P(X)1-P(X)或O(X)=P(X)P(瘙綈X)(5.17) 可见,X的几率表示X出现的概率与X不出现的概率之比,P(X)与O(X)的变化一致,且当P(X)=0时,O(X)=0; 当P(X)=1时,O(X)=+∞。这样就可以把取值为[0,1]的P(X)放大为取值为[0,+∞]的O(X)。 把式(5.17)式中几率和概率的关系代入式(5.16)得 O(H|E)=P(E|H)P(E|瘙綈H)×O(H) 再把LS代入此式,可得: O(H|E)=LS×O(H)(5.18) 式(5.18)称为Bayes公式的充分似然性形式。LS称为充分似然性,因为如果LS=∞,则证据E对于推出H为真是逻辑充分的。 同理,可得到关于LN的公式 O(H|瘙綈E)=LN×O(H)(5.19) 式(5.19)称为Bayes公式的必要似然性形式。LN称为必要似然性,因为如果LN=0,则O(H|瘙綈E)=0,这说明当瘙綈E为真时,H必假,即E对H来说是必要的。 式(5.18)和式(5.19)就是修改的Bayes公式。可以看出,当E为真时,可以利用LS将H的先验概率O(H)更新为其后验概率O(H|E); 当E为假时,可以利用LN将H的先验概率O(H)更新为其后验概率O(H|瘙綈E)。 2. LS和LN的性质 1) LS的性质 当LS>1时,O(H|E)>O(H),说明E支持H,LS越大,O(H|E)比O(H)大得越多,E对H的支持越充分。 当LS→∞时,O(H|E)→∞,即P(H|E)→1,表示E的存在将导致H为真。 当LS=1时,O(H|E)=O(H),说明E对H没有影响。 当LS<1时,O(H|E)1时,O(H|瘙綈E)>O(H),说明瘙綈E支持H,即由于E的不出现,增大了H为真的概率。并且LN越大,P(H|瘙綈E)就越大,即瘙綈E对H为真的支持就越强。 当LN→∞时,O(H|瘙綈E)→∞,即P(H|瘙綈E)→1,表示瘙綈E的存在将导致H为真。 当LN=1时,O(H|瘙綈E)=O(H),说明瘙綈E对H没有影响。 当LN<1时,O(H|瘙綈E)1且LN<1。 ② LS<1且LN>1。 ③ LS=LN=1。 以上结论可以进行证明。 证明①: LS>1P(E|H)P(E|瘙綈H)>1 P(E|H)>P(E|瘙綈H) 1-P(E|H)<1-P(E|瘙綈H) P(瘙綈E|H)0(5.30) 该公式称为CP公式。 这样,当用初始证据进行推理时,根据用户告知的C(E|S),运用CP公式可以求出P(H|S); 当用推理过程中得到的中间结论作为证据进行推理时,运用EH公式可求出P(H|S)。 5.4.5结论不确定性的合成算法 若有n条规则都支持相同的结论,而且每条规则的前提条件所对应的证据Ei(i=1,2,…,n) 都有相应的观察Si与之对应,此时只要先对每条规则分别求出H的后验概率O(H|Si),然后根据下述公式求出所在观察下H的后验概率: O(H|S1,S2,…,Sn)=O(H|S1)O(H)×O(H|S2)O(H)×…×O(H|Sn)O(H)×O(H) (5.31) 为了进一步说明主观Bayes方法的推理过程,下面给出几个例子。 例5.3设有如下规则: R1: IFE1THEN(400,0.1)H R2: IFE2THEN(60,0.1)H 已知证据E1、E2必然发生,并且P(H)=0.04,求H的后验概率。 解: 因为P(H)=0.04,则: O(H)=0.041-0.04=0.0417 根据R1有: O(H|E1)=LS1×O(H)=400×0.0417=16.68 根据R2有: O(H|E2)=LS2×O(H)=60×0.0417=2.502 那么 O(H|E1E2)=O(H|E1)O(H)×O(H|E2)O(H)×O(H) =16.680.0417×2.5020.0417×0.0417=1000.8 P(H|E1E2)=O(H|E1E2)1+O(H|E1E2)=1000.81+1000.8=0.9990 例5.4设有如下规则: R1: IFE1THEN(10,0.1)H1(0.03) R2: IFE2THEN(20,0.01)H2(0.05) R3: IFE3THEN(1,1)H3(0.3) 求: 当证据E1、E2、E3存在和不存在时,P(Hi|Ei)及P(Hi|瘙綈Ei)的值各是多少? 解: (1) 当证据E1、E2、E3都存在时: P(H1|E1)=LS1×P(H1)(LS1-1)×P(H1)+1=10×0.03(10-1)×0.03+1=0.2362 P(H2|E2)=LS2×P(H2)(LS2-1)×P(H2)+1=20×0.05(20-1)×0.05+1=0.5128 对于R3,由于LS=1,所以E3的存在对H3无影响,即P(H3|E3)=0.3。 由此可以看出,E1的存在使H1为真的可能性增加了8倍,E2的存在使H2为真的可能性增加了10多倍。 (2) 当证据E1、E2、E3都不存在时,R1和R2中的LN=1,所以E1与E2不存在时对H1和H2不产生影响,即: P(H1|瘙綈E1)=LN1×P(H1)(LN1-1)×P(H1)+1=0.1×0.03(0.1-1)×0.03+1=0.00308 P(H2|瘙綈E2)=LN2×P(H2)(LN2-1)×P(H2)+1=0.01×0.05(0.01-1)×0.05+1=0.00053 对于R3,由于LN=1,所以E3的不存在对H3无影响,即P(H3|E3)=0.3。 由此可以看出,由于E1不存在使H1为真的可能性削弱为原来的1/10,E2不存在使H2为真的可能性削弱为原来的1/100。 例5.5设有规则: R1: IFE1THEN(2,0.001)H1 R2: IFE1ANDE2THEN(100,0.001)H1 R3: IFH1THEN(200,0.01)H2 已知: P(E1)=P(E2)=0.6,P(H1)=0.091,P(H2)=0.01,P(E1|S1)=0.76,P(E2|S2)=0.68。 图5.2例5.5的推理网络 求: P(H1|S1,S2)。 解: 由已知知识得到的推理网络如图5.2所示。 (1) 计算O(H1|S1)。 首先将P(H1)更新为E1下的后验概率P(H1|E1): P(H1|E1)=LS1×P(H1)(LS1-1)×P(H1)+1 =2×0.091(2-1)×0.091+1=0.167 由于P(E1|S1)=0.76P(E2),根据式(5.29)得: P(H1|S2)=P(H1)+P(H1|E2)-P(H1)1-P(E2)×(P(E2|S2)-P(E2)) =0.091+0.909-0.0911-0.6×(0.68-0.6) =0.255 故: O(H1|S2)=P(H1|S2)1-P(H1|S2)=0.2551-0.255=0.342 (3) 计算O(H1|S1,S2)。 首先将H1的先验概率转换为先验概率: O(H1)=P(H1)1-P(H1)=0.0911-0.091=0.1 再根据合成公式计算H1的后验概率: O(H1|S1,S2)=O(H1|S1)O(H1)×O(H1|S2)O(H1)×O(H1) =0.1380.1×0.3420.1×0.1=0.472 然后将后验概率转换为后验概率: P(H1|S1,S2)=O(H1|S1,S2)1+O(H1|S1,S2)=0.4721+0.472=0.321 (4) 计算P(H2|S1,S2)。 对R3,H1相当于已知事实,H2为结论。将H1的先验概率P(H2)更新为在H1下的后验概率P(H2| H1),由于P(H1|S1,S2)=0.321>P(H1),根据式(5.29)得到在当前观察S1、S2下H2的后验概率: P(H2|H1)=LS3×P(H2)(LS3-1)×P(H2)+1=200×0.01(200-1)×0.01+1=0.669 P(H2|S1,S2)=P(H2)+P(H2|H1)-P(H2)1-P(H1)×(P(H1|S1,S2)-P(H1)) =0.1+0.669-0.011-0.091×(0.321-0.091) =0.177 由此可以看出,H2的先验概率是0.01,通过R1、R2、R3及初始证据进行推理,最后推出H2的后验概率为0.177,相当于概率增加了17倍多。 主观Bayes方法是在概率论的基础上发展起来的,具有较完善的理论基础,且知识的输入转化为对LS和LN的赋值,避免了大量的数据统计工作,是一种比较实用且较灵活的不确定性推理方法。但是它在要求专家给出LS和LN的同时,还要求给出先验概率P(H),而且要求事件间相互独立,这仍然比较困难,从而也就限制了它的应用。 5.5可信度方法 可信度方法是由美国斯坦福大学肖特里菲(E.H.Shortliffe)等在考查了非概率的和非形式化的推理过程后,于1975年提出的一种不确定性推理方法,并于1976年首次在血液病诊断专家系统MYCIN中得到了成功应用。 5.5.1可信度的定义和性质 可信度是指人们根据以往的经验对某个事物或现象为真的程度的一个判断,或者说是人们对某个事物或现象为真的相信程度。 1. 可信度的定义 可信度最初定义为信任与不信任的差,即CF(H,E)定义为 CF(H,E)=MB(H,E)-MD(H,E)(5.32) 其中,CF是由证据E得到假设H的可信度,也称为确定性因子(Certainty Factor)。 MB(Measure Belief)称为信任增长度,表示因为与前提条件E匹配的证据的出现,使结论H为真的信任的增长程度。MB(H,E)定义为 MB(H,E)=1,P(H)=1 max{P(H|E),P(H)}-P(H)1-P(H),其他(5.33) MD(Measure Disbelief)称为不信任增长度,表示因为与前提条件E匹配的证据的出现,对结论H的不信任的增长程度。MD(H,E)定义为 MD(H,E)=1,P(H)=0 min{P(H|E),P(H)}-P(H)-P(H),其他(5.34) 其中,P(H)表示H的先验概率; P(H|E)表示在前提条件E所对应的证据出现的情况下,结论H的条件概率(后验概率)。 由MB与MD的定义可以得出如下结论。 当MB(H,E)>0时,有P(H|E)>P(H),这说明由于E所对应的证据的出现增加了H的信任程度,但不信任程度没有变化。 当MD(H,E)>0时,有P(H|E)P(H) 0,P(H|E)=P(H) 0-MD(H,E)=-P(H)-P(H|E)P(H),P(H|E)0,则P(H|E)>P(H)。说明由于前提条件E所对应的证据的出现增加了H为真的概率,即增加了H的可信度; CF(H,E)的值越大,增加H为真的可信度越大。 若CF(H,E)<0,则P(H|E)0时,MD(H,E)=0 当MD(H,E)>0时,MB(H,E)=0 (2) MB、MD、CF具有如下值域: 0≤MB(H,E)≤1 0≤MD(H,E)≤1 -1≤CF(H,E)≤1 (3) CF、MB、MD包括如下三种典型值: ① 当CF(H,E)=1时,有P(H|E)=1,表明E所对应的证据的出现使H为真,此时MB(H,E)=1,MD(H,E)=0; ② 当CF(H,E)=-1时,有P(H|E)=0,表明E所对应的证据的出现使H为假,此时MB(H,E)=0,MD(H,E)=1; ③ 当CF(H,E)=0时,则P(H|E)=P(H),表示H与E独立,即E所对应的证据出现对H没有影响。 (4) 对H的信任增长度等于非H的不信任增长度,即: MD(瘙綈H,E)=P(瘙綈H|E)-P(瘙綈H)-P(瘙綈H)=(1-P(H|E))-(1-P(H))-(1-P(H)) =-P(H|E)+P(H)-(1-P(H))=MB(H,E) (5) 对H的可信度与对非H的可信度之和等于0,即: CF(H,E)+CF(瘙綈H,E)=(MB(H,E)-MD(H,E))+(MB(瘙綈H,E)-MD(瘙綈H,E)) =(MB(H,E)-0)+(0-MD(瘙綈H,E)) =MB(H,E)-MD(瘙綈H,E) =0 (6) 可信度不是概率。对于概率有P(H)+P(瘙綈H)=1且0≤P(H),P(瘙綈H)≤1,而可信度不满足此条件。 (7) 对同一前提E,若支持若干个不同的结论Hi(i=1,2,…,n),则 ∑ni=1CF(Hi,E)≤1 因此,如果专家给出的知识为CF(H1,E)=0.7,CF(H2,E)=0.4,则因为0.7+0.4=1.1>1为非法,应进行调整或规范化。 在实际应用中,P(H)和P(H|E)的值很难获取,因此CF(H,E)的值应由领域专家给出。原则为: 若相应的证据的出现会增加H为真的可信度,则CF(H,E)>0,证据的出现对H为真的支持程度越高,则CF(H,E)的值越大; 反之,证据的出现减少H为真的可信度,则CF(H,E)<0,证据的出现对H为假的支持程度越高,使CF(H,E)的值越小; 若相应的证据的出现与H无关,则使CF(H,E)=0。 5.5.2CF模型 CF模型是基于可信度表示的不确定性推理的基本方法。下面讨论其知识表示和推理问题。 1. 规则不确定性的表示 在CF模型中,规则是用产生式规则表示的,其一般形式为 IFETHENH(CF(H,E))(5.36) 其中,E是规则的前提条件,H是规则的结论,CF(H,E)是规则的可信度,也称为规则强度,它描述的是知识的静态强度。 这里,前提和结论都可以是单个命题,也可由复合命题组成,对它们简单说明如下。 (1) 前提证据E可以是一个简单条件,也可以是由合取和析取构成的复合条件,例如 E=(E1 OR E2)ANDE3 ANDE4 就是一个复合条件。 (2) 结论H可以是一个单一的结论,也可以是多个结论。 (3) 可信度因子CF通常称为可信度,或称规则强度,它实际上是知识的静态强度。 CF(H,E)取值范围是[-1,1],其值表示当证据E为真时,该证据对结论H为真的支持程度,CF(H,E)的值越大,说明E对结论H为真的支持程度越大。 2. 证据不确定性的表示 在CF模型中,证据E的不确定性也是用可信度因子CF(E)表示的,其取值范围同样是[-1,1],其典型值为  当证据E肯定为真时,CF(E)=1;  当证据E肯定为假时,CF(E)=-1;  当证据E一无所知时,CF(E)=0。 证据可信度的来源有以下两种情况: 如果是初始证据,其可信度是由提供证据的用户给出的; 如果是先前推出的中间结论又作为当前推理的证据,则其可信度在推出该结论时由不确定性的更新算法计算得到。 CF(E)所描述的是证据的动态强度,尽管它和知识的静态强度在表示方法上类似,但二者的含义完全不同。知识的静态强度CF(H,E)表示的是规则的强度,即当E所对应的证据为真时对H的影响程度,而动态强度CF(E)表示的是证据E当前的不确定性程度。 3. 组合证据不确定性的计算 对证据的组合形式可分为“合取”与“析取”两种基本情况。当组合证据是多个单一证据的合取时,即: E=E1ANDE2AND…ANDEn 若已知CF(E1),CF(E2),…,CF(En),则: CF(E)=min{CF(E1),CF(E2),…,CF(En)}(5.37) 当组合证据是多个单一证据的析取时,即: E=E1ORE2OR…OREn 若已知CF(E1),CF(E2),…,CF(En),则: CF(E)=max{CF(E1),CF(E2),…,CF(En)}(5.38) 4. 否定证据不确定性的计算 设E为证据,则该证据的否定,记为瘙綈E,若已知E的可信度为CF(E),则: CF(瘙綈E)=-CF(E)(5.39) 5. 不确定性推理计算 CF模型中的不确定性推理实际上是从不确定性的初始证据出发,不断运用相关的不确定性规则,逐步推出最终结论和该结论的可信度的过程。而每次运用不确定性知识都需要由证据的不确定性和规则的不确定性去计算结论的不确定性。 ① 证据肯定存在(CF(E)=1)时,则: CF(H)=CF(H,E) 这说明,规则强度CF(H,E)实际上就是在前提条件对应的证据为真时结论H的可信度。 ② 证据不是肯定存在(CF(E)≠1)时,则: CF(H)=CF(H,E)×max{0,CF(E)}(5.40) 由此可以看出,若CF(E)<0,即相应的证据以某种程度为假,则CF(H)=0。这说明在该模型中没有考虑证据为假时对结论H所产生的影响。 ③ 证据是多个条件组合的情况。即如果有两条规则推出一个相同结论,并且这两条规则的前提相互独立,结论的可信度又不相同,则可用不确定性的合成算法求出该结论的综合可信度。 设有如下规则: IFE1THENH(CF(H,E1)) IFE2THENH(CF(H,E2)) 则结论H的综合可信度可分以下两步计算。 第一步: 分别对每条规则求出其CF(H),即: CF1(H)=CF(H,E1)×max{0,CF(E1)} CF2(H)=CF(H,E2)×max{0,CF(E2)} 第二步: 求E1与E2对H的综合可信度,即: CF(H)=CF1(H)+CF2(H)-CF1(H)×CF2(H),CF1(H)≥0,CF2(H)≥0 CF1(H)+CF2(H)+CF1(H)×CF2(H),CF1(H)<0,CF2(H)<0 CF1(H)+CF2(H)1-min{|CF1(H)|,|CF2(H)|},CF1(H)与CF2(H)异号(5.41) 如果可由多条规则推出同一个结论,并且这些规则的前提相互独立,结论的可信度又不相同,则可以将上述合成过程推广应用到多条规则支持同一条结论,且规则前提可以包含多个证据的情况。这时合成过程是先把第一条与第二条合成,再用该合成后的结论与第三条合成,依次进行下去,直到全部合成完为止。 例5.6已知有下列一组规则: R1: IFE1THENH1(0.8) R2: IFE2THENH1(0.5) R3: IFE3ANDH1THENH2(0.8) 已知初始可信度: CF(E1)=CF(E2)=CF(E3)=1,求: CF(H1),CF(H2)。 解: (1) 对知识R1、R2,分别计算CF(H1)。 CF1(H1)=CF(H1,E1)×max{0,CF(E1)}=0.8×max{0,1}=0.8 CF2(H1)=CF(H1,E2)×max{0,CF(E2)}=0.5×max{0,1}=0.5 (2) 利用合成算法计算H1的综合可信度。 CF1,2(H1)=CF1(H1)+CF2(H1)-CF1(H1)×CF2(H1) =0.8+0.5-0.8×0.5 =0.9 (3) 计算H2的可信度。这时H1作为H2的证据,其可信度由前面计算,即CF(H1)=0.9,又CF(E3)=1,故: CF(H2)=CF(H2,E3 AND H1)×max{0,CF(E3 AND H1)} =0.8×max{0,0.9} =0.72 例5.7设有如下一组规则: R1: IFE1THENH(0.9) R2: IFE2THENH(0.6) R3: IFE3THENH(-0.5) R4: IFE4AND(E5 OR E6)THENE1(0.8) 已知: CF(E2)=0.8,CF(E3)=0.6,CF(E4)=0.5,CF(E5)=0.6,CF(E6)=0.8。 求: H的综合可信度CF(H)。 解: 由R4得到: CF(E1)=0.8×max{0,CF(E4 AND(E5 OR E6))} =0.8×max{0,min{CF(E4),CF(E5 OR E6)}} =0.8×max{0,min{CF(E4),max{CF(E5),CF(E6)}}} =0.8×max{0,min{0.5,0.8}} =0.8×max{0,0.5} =0.4 由R1得到: CF1(H)=CF(H,E1)×max{0,CF(E1)} =0.9×max{0,0.4} =0.36 由R2得到: CF2(H)=CF(H,E2)×max{0,CF(E2)} =0.6×max{0,0.8} =0.48 由R3得到: CF3(H)=CF(H,E3)×max{0,CF(E3)} =-0.5×max{0,0.6} =-0.3 根据结论不确定性的合成算法得到: CF1,2(H)=CF1(H)+CF2(H)-CF1(H)×CF2(H) =0.36+0.48-0.36×0.48 =0.67 CF1,2,3(H)=CF1,2(H)+CF3(H)1-min{|CF1,2(H)|,|CF3(H)|} =0.67-0.31-min{0.67,0.3}=0.370.7 =0.53 这就是所求出的综合可信度,即CF(H)=0.53。 5.5.3可信度方法的说明 1. 可信度的计算问题 CF的原始定义为 CF=MB-MD 该定义有一个困难之处。因为一个反面证据的影响可以抑制很多正面证据的影响,反之亦然。例如,如果MB=0.999,MD=0.799,则CF=0.2。后来,MYCIN中CF的定义修改为 CF=MB-MD1-min{MB,MD} 这样可以削弱一个反面证据对多个正面证据的影响。例如对上面的MB,MD值,有 CF=0.999-0.7991-min{0.999,0.799}=0.995 另外,在MYCIN中,一个规则前件的CF值必须大于0.2,这样该规则的前件能认为为真并激活该规则。在CF理论中,阈值0.2不是作为一个基本公理,而是作为一个处理方法来减少所激活的仅弱支持的规则数目。如果没有这个阈值,许多CF值很小甚至没有值的规则将被激活,这将大大降低系统的效率。 2. 可信度方法的特点: 可信度方法的优点如下。 (1) 可信度方法具有简洁、直观的优点。通过简单的计算,不确定性就可以在系统中传播,并且计算具有线性的复杂度,推理的近似效果也比较理想。 (2) 可信度方法也很容易理解,并且将不信任和信任清楚地区分开来。 可信度方法的缺点如下。 (1) CF值可能与条件概率得出的值相反。例如: P(H1)=0.8,P(H2)=0.2,P(H1|E)=0.9,P(H2|E)=0.8 则: CF(H1,E)=0.5,CF(H2,E)=0.75 如果一种疾病具有很高的条件概率,但却有很低的CF值,则可能会产生矛盾。 (2) 通常: P(H|E)≠P(H|S)×P(S|E) 其中,S是基于证据E的某些中间假设。但在推理链中的两条规则的CF却是作为独立概率计算的,即 CF(H,E)=CF(H,S)×CF(S,E) (3) MYCIN一般应用于短推理链,而且假设简单的问题。如果把该方法应用于不具备短推理链、简单假设的领域,则可能会出问题。 (4) 由于可能导致计算的累计误差,如果多个规则逻辑等价于一个规则,则采用一个规则和多个规则计算的CF值可能就不相同。 (5) 组合规则使用的顺序不同,可能得出不同的结果。 5.6证据理论 证据理论(Evidential of Evidence),也称为DS(DempsterShafer)理论,最早是由德姆斯特(A.P.Dempster)提出的。他试图用一个概率范围而不是单个的概率值去模拟不确定性。莎弗(G.Shafer)进一步拓展了德姆斯特的工作,称为证据推理(Evidential Reasoning),用于处理不确定性、不精确以及间或不准确的信息。由于证据理论将概率论中的单点赋值扩展为集合赋值,弱化了相应的公理系统,满足了比概率更弱的要求,因此可看作一种广义概率论。 证据理论中引入了信任函数来度量不确定性,并引用似然函数来处理由于“不知道”引起的不确定性,并且不必事先给出知识的先验概率,与主观Bayes方法相比,具有较大的灵活性。因此,证据理论得到了广泛的应用。同时,可信度可以看作证据理论的一个特例,证据理论给了可信度一个理论性的基础。 5.6.1证据理论的形式描述 在证据理论中,可以分别用信任函数、似然函数及类概率函数来描述知识的精确信任度、不可驳斥信任度及估计信任度,即可以从各种不同角度刻画命题的不确定性。 1. 概率分配函数 证据理论处理集合上的不确定性问题。为适应这一需要,首先应该建立命题与集合之间的一一对应关系,把命题的不确定性转化为集合的不确定性问题。 设Ω为变量x的所有可能取值的有限集合(亦称样本空间),且Ω中的每个元素都相互独立,则由Ω的所有子集构成的集合称为幂集,记为2Ω。 当Ω中的元素个数为N时,则其幂集的元素个数为2N,且其中的每个元素A都对应于一个关于x的命题,称该命题为“x的值在A中”。 例5.8设: Ω={黑,白,蓝},求: Ω的幂集2Ω。 解: Ω的幂集可包括如下子集: A0=,A1={黑},A2={白},A3={蓝} A4={黑,白},A5={黑,蓝},A6={白,蓝},A7={黑,白,蓝} 其中,表示空集,上述子集的个数正好是23=8,所以: 2Ω={A0,A1,A2,A3,A4,A5,A6,A7}。 定义5.3设函数m: 2Ω→[0,1],且满足: m()=0 ∑AΩm(A)=1 则称m是2Ω上的概率分配函数,m(A)称为A的基本概率数。m(A)表示依据当前的环境对假设集A的信任程度。 对例5.8所给出的有限集Ω,若定义2Ω上的一个基本函数m: m(A0,A1,A2,A3,A4,A5,A6,A7)=(00.3,0,0.1,0.2,0.2,0,0.2) 其中,(0,0.3,0,0.1,0.2,0.2,0,0.2)分别是幂集中各个子集的基本概率数。显然,m满足概率分配函数的定义。 对概率分配函数的几点说明。 (1) 概率分配函数的作用是把Ω的任意一个子集都映射为[0,1]上的一个数m(A)。 当A包含于Ω且A由单个元素组成时,m(A)表示对A的精确信任度; 当A包含于Ω、A≠Ω,且A由多个元素组成时,m(A)也表示对A的精确信任度,但不知道这部分信任度该分给A中哪些元素; 当A=Ω时,则m(A)是对Ω的各个子集进行信任分配后剩下的部分,表示不知道该如何对它进行分配。 例如,对上例所给出的有限集Ω及基本函数m: 当A1={黑}时,有m(A1)=0.3,表示对命题“x是黑色”的精确信任度为0.3。 当A4={黑,白}时,有m(A4)=0.2,表示对命题“x或者是黑色,或者是白色”的精确信任度为0.2,却不知道该把这0.2是分给{黑}还是分给{白}。 当A7=Ω={黑,白,蓝}时,有m(A7)=0.2,表示不知道该对这0.2如何分配,但它不属于{黑},就一定属于{白}或{蓝},只是在现有认识下还不知道该如何分配而已。 (2) m是2Ω上而非Ω上的概率分布,所以概率分配函数不是概率,它们不必相等,而且m(A)≠1-m(瘙綈A)。 例如,在例5.8中m符合概率分配函数的定义,但是: m(A1)+m(A2)+m(A3)=0.3+0+0.1=0.4<1 而概率要求P(A1)+P(A2)+P(A3)=1,因此m不是概率。 2. 信任函数 定义5.4信任函数 (Belief Function) Bel: 2Ω→[0,1] 对任意的AΩ有: Bel(A)=∑BAm(B) Bel(A)表示当前环境下,对假设集A的信任程度,其值为A的所有子集的基本概率之和,表示对A的总的信任度。当A为单一元素组成的集合时,Bel(A)=m(A),因此Bel(A)又称为下限函数。 例如,对例5.8有: Bel(A4)=m(A1)+m(A2)+m(A4) =0.3+0+0.2 =0.5 3. 似然函数 定义5.5似然函数 (Plausibility Function) Pl: 2Ω→[0,1] 对任意的AΩ有: Pl(A)=1-Bel(瘙綈A) 其中,瘙綈A=Ω-A。 似然函数又称不可驳斥函数或上限函数。由于Bel(A)表示对A为真的信任度,Bel(瘙綈A)表示对瘙綈A的信任度,即A为假的信任度,因此,Pl(A)表示对A为非假的信任度。 例如,对例5.8有: Pl(A3)=1-Bel(瘙綈A3) =1-(m(A1)+m(A2)+m(A4)) =1-(0.3+0+0.2) =0.5 这里的0.5是对“蓝”为非假的信任度。由于“蓝”为真的精确信任度为0.1,而剩下的0.5-0.1=0.4则是知道非假但却不能肯定为真的那部分。 推论5.1设有信任函数m,似然函数Pl,则 Pl(A)=∑A∩B≠m(B) 证明: Pl(A)-∑A∩B≠m(B)=1-Bel(瘙綈A)-∑A∩B≠m(B) =1-(Bel(瘙綈A)+∑A∩B≠m(B)) =1-∑C瘙綈Am(C)+∑A∩B≠m(B) =1-∑DΩm(D) =0 所以可得 Pl(A)=∑A∩B≠m(B) 因此命题“x在A中”的似然性由与命题“x在B中”有关的m值确定,其中命题“x在B中”并不会使得命题“x不在A中”成立。所以,一个事件的似然性是建立在对其相反事件不信任的基础上的。 4. 信任函数和似然函数的性质 信任函数和似然函数满足下列性质: (1) Bel()=0,Bel(Ω)=1,Pl()=0,Pl(Ω)=1; (2) 如果AB,则Bel(A)≤Bel(B),Pl(A)≤Pl(B); (3) AΩ,Pl(A)≥Bel(A); (4) AΩ,Bel(A)+Bel(瘙綈A)≤1,Pl(A)+Pl(瘙綈A)≥1。 由于Bel(A)和Pl(A)分别表示A为真的信任度和A为非假的信任度,因此,可分别称Bel(A)和Pl(A)为对A信任程度的下限和上限,记为 A[Bel(A),Pl(A)] Pl(A)-Bel(A)表示既不信任A,也不信任瘙綈A的程度,即对于A是真是假不知道的程度。 5. 概率分配函数的正交和 在实际问题中,对于相同的证据,由于来源不同,可能会得到不同的概率分配函数。例如,考虑Ω={黑,白},假设从不同知识源得到的概率分配函数分别为 m1(,{黑},{白},{黑,白})=(0,0.4,0.5,0.1) m2(,{黑},{白},{黑,白})=(0,0.6,0.2,0.2) 在这种情况下,需要对它们进行组合。 定义5.6设m1和m2是两个不同的概率分配函数,则其正交和m=m1m2满足 m()=0 m(A)=K-1∑x∩y=Am1(x)m2(y)(5.42) 其中 K=1-∑x∩y=m1(x)m2(y)=∑x∩y≠m1(x)m2(y)(5.43) 如果K≠0,则正交和m也是一个概率分配函数; 如果K=0,则不存在正交和m,称m1与m2矛盾。 例5.9设Ω={a,b},且从不同知识源得到的概率分配函数分别为 m1(,{a},{b},{a,b})=(0,0.5,0.3,0.2) m2(,{a},{b},{a,b})=(0,0.3,0.6,0.1) 求: 正交和m=m1m2。 解: 先求K: K=1-∑x∩y=m1(x)m2(y) =1-(m1({a})m2({b}))+(m1({b})m2({a})) =1-(0.5×0.6+0.3×0.3) =0.61 然后求m(,{a},{b},{a,b}),由于 m({a})=10.61×∑x∩y={a}m1(x)m2(y) =10.61×(m1({a})m2({a})+m1({a})m2({a,b})+m1({a,b})m2({a})) =10.61×(0.5×0.3+0.5×0.1+0.2×0.3) =0.43 同理可得 m({b})=0.54 m({a,b})=0.03 组合后得到概率分配函数 m(,{a},{b},{a,b})=(0,0.43,0.54,0.03) 5.6.2证据理论的推理模型 在上述证据理论的形式描述中,信任函数Bel(A)和似然函数Pl(A)分别表示命题A的信任度的下限和上限,同样可用它来表述知识强度的下限和上限。这样就可在此表示的基础上建立相应的不确定性推理模型。 另外,从信任函数和似然函数的定义可以看出,它们都是建立在概率分配函数的基础上的。那么,当概率分配函数的定义不同时,将会得到不同的推理模型。下面给出一个特殊的概率分配函数,并在该函数的基础上建立一个具体的不确定性推理模型。 1. 一个特殊的概率分配函数 设Ω={s1,s2,…,sn},m为定义在2Ω上的概率分配函数,且m满足 (1) m({si})≥0,对任意si∈Ω; (2) ∑ni=1m({si})≤1; (3) m(Ω)=1-∑ni=1m({si}); (4) 当AΩ,且|A|>1或|A|=0时,m(A)=0。其中,|A|表示命题A对应的集合中元素的个数。 这里定义的是一个特殊的概率分配函数,只有当子集中的元素个数为1时,其概率分配函数才有可能大于0; 当子集中有多个或空集且不等于全集时,其概率分配函数均为0; 全集Ω的概率分配函数第(3)式计算。 例5.10设Ω={红,黄,白},有如下的概率分配函数: m1(,{红},{黄},{白},Ω)=(0,0.6,0.2,0.1,0.1) 其中,m({红,黄})=m({红,白})=m({黄,白})=0符合上述概率分配函数的定义。 下面讨论满足上述特殊概率分配函数的信任函数、似然函数,以及它们的正交和。 定义5.7设m为上述定义的一个特殊概率分配函数,对任意命题AΩ,则 (1) 信任函数为: Bel(A)=∑si∈Am({si}) Bel(Ω)=∑BΩm(B)=∑ni=1m({si})+m(Ω)=1 (2) 似然函数为: Pl(A)=1-Bel(瘙綈A)=1-∑si∈瘙綈Am({si}) =1-∑si∈瘙綈Am({si})=1-∑ni=1m({si})-∑si∈Am({si}) =1-(1-m(Ω)-Bel(A)) =m(Ω)+Bel(A) Pl(Ω)=1-Bel(瘙綈Ω)=1-Bel()=1 从上面的定义可以看出,对任何命题AΩ和BΩ,均有 Pl(A)-Bel(A)=Pl(B)-Bel(B)=m(Ω) 例5.11设Ω={红,黄,绿},如下的概率分配函数: m1(,{红},{黄},{绿},Ω)=(0,0.6,0.2,0.1,0.1) 设A={红,黄},求m(Ω),Bel(A),Pl(A)的值。 解: m(Ω)=1-(m({红})+m({黄})+m({绿}))=1-(0.6+0.2+0.1)=0.1 Bel(A)=m({红})+m({黄})=0.6+0.2=0.8 Pl(A)=m(Ω)+Bel({红,黄})=0.1+0.8=0.9 或Pl(A)=1-Bel(瘙綈{红,黄})=1-Bel({绿})=1-0.1=0.9 2. 类概率函数 利用信任函数Bel(A)和似然函数Pl(A),可以定义A的类概率函数,并把它作为A的不确定性度量。 定义5.8设Ω为有限域,对任意命题AΩ,命题A的类概率函数为 f(A)=Bel(A)+|A||Ω|(Pl(A)-Bel(A))(5.44) 其中,|A|、|Ω|分别表示A和Ω中包含元素的个数。 类概率函数f(A)具有以下的性质。 (1) f()=0,f(Ω)=1; (2) 0≤f(A)≤1,AΩ; (3) Bel(A)≤f(A)≤Pl(A),AΩ; (4) f(瘙綈A)=1-f(A),AΩ。 5.6.3证据不确定性的表示 在证据理论中,所有输入的已知数据、规则前提条件及结论部分的命题都称为证据。证据E的不确定性可以用类概率函数f(E)表示。 在实际系统中,如果是初始证据,其不确定性是由用户给出,如果是推理过程中得到的中间结论,则其不确定性由推理得到。 5.6.4规则不确定性的表示 在证据理论中,规则的不确定性可表示为 IFETHENH,CF 其中,H为假设,E为支持H成立的假设集,它们是命题的逻辑组合。CF为可信度因子。 H={a1,a2,…,am},ai∈Ω(i=1,2,…,m),H为假设集合Ω的子集。 CF={c1,c2,…,cm},ci用来描述前提E成立时ai的可信度。CF应满足如下条件: ci≥0,1≤i≤m ∑mi=1ci≤1 5.6.5不确定性推理计算 定义5.9对于不确定性规则 IFETHENH,CF 定义 m({ai})=f(E)ci,i=1,2,…,m 或表示为 m({a1},{a2},…,{am})=(f(E)c1,f(E)c2,…,f(E)cm) 规定 m(Ω)=1-∑mi=1m({ai}) 而对于Ω的所有其他子集H,均有m(H)=0。 当H为Ω的真子集时,有 Bel(H)=∑BHm(B)=∑mi=1m({ai})(5.45) 进一步地,可以计算Pl(H)和f(H)。 5.6.6组合证据不确定性的计算 当规则的前提(证据)E是多个命题的合取或析取时,定义 f(E1∧E2∧…∧En)=min{f(E1),f(E2),…,f(En)} f(E1∨E2∨…∨En)=max{f(E1),f(E2),…,f(En)} 当有多条规则支持同一结论时,如果H={a1,a2,…,an},则 IFE1THENH,CF1(CF1={c11,c12,…,c1n}) IFE2THENH,CF2(CF2={c21,c22,…,c2n})  IFEmTHENH,CFm(CFm={cm1,cm2,…,cmn}) 如果这些规则相互独立地支持结论H的成立,可以先计算 mi({a1},{a2},…,{am})=(f(Ei)ci1,f(Ei)ci2,…,f(Ei)cim),i=1,2,…,m 然后根据前面介绍的求正交和的方法,对这些mi求正交和,以组合所有规则对结论H的支持。一旦累加的正交和m(H)计算出来,就可以计算Bel(H)、Pl(H)、f(H)。 例5.12有如下的推理规则: R1: IFE1∨(E2∧E3)THENA1={a11,a12,a13}CF={0.4,0.3,0.2} R2: IFE4∧(E5∧E6)THENA2={a21}CF2={0.7} R3: IFA1THENA={a1,a2}CF3={0.5,0.4} R4: IFA2THENA={a1,a2}CF4={0.4,0.4} 图5.3例5.12推理网络 这些规则形成如图5.3所示的推理网络,原始数据的概率在系统中已经给出: f(E1)=0.5,f(E2)=0.9,f(E3)=0.7,f(E4)=0.9, f(E5)=0.7,f(E6)=0.8 假设|Ω|=10,现在需要求出A的确定性f(A)。 解: 第一步,求A1的确定性。 f(E1∨(E2∧E3))=max{0.5,min(0.9,0.7)}=0.7 m1({a11},{a12},{a13})=(0.7×0.4,0.7×0.3,0.7×0.2)=(0.28,0.21,0.14) Bel(A1)=m1({a11})+m1({a12})+m1({a13})=0.28+0.21+0.14=0.63 Pl(A1)=1-Bel(瘙綈A1)=1-0=1 f(A1)=Bel(A1)+|A1|Ω×(Pl(A1)-Bel(A1))=0.63+310×(1-0.63)=0.74 第二步,求A2的确定性。 f(E4∧(E5∨E6))=min{0.9,max(0.7,0.8)}=0.8 m2({a21})=0.8×0.7=0.56 Bel(A2)=m2({a21})=0.56 Pl(A2)=1-Bel(瘙綈A2)=1-0=1 f(A2)=Bel(A2)+|A2|Ω×(Pl(A2)-Bel(A2))=0.56+110×(1-0.56)=0.60 第三步,求A的确定性。 根据R3和R4,有: m3({a1},{a2})=(0.74×0.5,0.74×0.4)=(0.37,0.296) m4({a1},{a2})=(0.6×0.4,0.6×0.4)=(0.24,0.24) m3(Ω)=1-(m3({a1})+m3({a2}))=1-(0.37+0.296)=0.334 m4(Ω)=1-(m4({a1})+m4({a2}))=1-(0.24+0.24)=0.52 由正交和公式得到: K=1-∑x∩y=m3(x)m4(y) =1-(m3({a1})m4({a2})+m3({a2})m4({a1})) =1-(0.37×0.24+0.296×0.24) =0.84 则: m({a1})=K-1∑x∩y={a1}m1(x)m2(y) =10.84×(m3(Ω)m4({a1})+m3({a1})m4(Ω)+m3({a1})m4({a1})) =10.84×(0.334×0.24+0.37×0.52+0.37×0.24)=0.43 m({a2})=K-1∑x∩y={a2}m1(x)m2(y) =10.84×(m3(Ω)m4({a2})+m3({a2})m4(Ω)+m3({a2})m4({a2})) =10.84×(0.334×0.24+0.296×0.52+0.296×0.24) =0.36 于是: Bel(A)=m({a1})+m({a2})=0.43+0.36=0.79 Pl(A)=1-Bel(瘙綈A)=1-0=1 f(A)=Bel(A)+|A|Ω×(Pl(A)-Bel(A))=0.79+210×(1-0.79)=0.832 证据理论的优点在于能够满足比概率论更弱的公理系统,可以区分不知道和不确定的情况,可以依赖证据的积累,不断缩小假设的集合。 证据理论最早是作为经典概率理论的扩展而引入的,所以受到很多的批评; 在证据理论中,证据的独立性不易得到保证,基本概率分配函数要求给的值太多,计算传递关系复杂,随着诊断问题可能答案的增加,证据理论的计算呈指数级增长,传递关系复杂,比较难以实现。 5.7模糊推理 模糊推理的理论基础是模糊集理论以及在此基础上发展起来的模糊逻辑,起源于1965年美国California大学的扎德(L.A.Zadeh)在Information and Control上发表的论文Fuzzy Sets。模糊逻辑所处理的事物自身是模糊的,概念本身没有明确的外延,一个对象是否符合这个概念难以明确地确定,模糊推理是对这种不确定性,即模糊性的表示与处理。 模糊推理是利用模糊性知识进行的一种不确定性推理,与前面几节讨论的不确定性推理有着实质性的区别。不确定性推理的理论基础是概率论,所研究的事件本身有明确且确定的含义,只是由于发生的条件不充分,使得在条件与事件之间不能出现确定的因果关系,从而在事件的出现与否上表现出不确定性。 在人工智能的应用领域中,知识及信息的不确定性大多是由模糊性引起的,这就使得对模糊推理的研究显得格外重要。本节以模糊数学为基础,讨论模糊假言推理。 5.7.1模糊数学的基本知识 1. 模糊集合 1) 隶属度 集合元素对集合的隶属程度称为隶属度,用μ表示。设A是论域U上的模糊集合,U中完全属于A的元素,其μ值为1,完全不属于A的元素其值为0。对于(0,1)内的μ值,其值越大,隶属程度越高,当μ值为1时,就是经典集合的“属于”,当μ值为0时,就是经典集合的“不属于”。 模糊集合用“隶属度/元素”的形式来记,例如: A=μ1/x1+μ2/x2+…+μn/xn 注意: 这里的“+”号并不是求和,“/”号也不是求商,仅仅是一种记法,是模糊数学创始人扎德给出的记法。当某一项的μ值为0时,可以省略不写。由于这种记法中的“+”号的原意是求和,扎德又用记号 A=∫u∈UμA(u)/u 作为模糊集合A的一般表示形式。当然,这里的积分符号也不是求和,只是一种记法。 模糊集合中,论域的概念十分重要,论域是一个经典集合。任何一个模糊集合都是建立在一个论域之上的,模糊集合中的元素xi取自其论域,因此空谈模糊集合是没有意义的。谈到某一模糊集合,必须声明它是哪一论域上的模糊集合。 2) 模糊集合相等 两个模糊集合相等,当且仅当它们的隶属函数在论域U上恒等,即A=B,当且仅当x∈U,μA(x)=μB(x)。 3) 模糊集合的包含 模糊集合A包含于模糊集合B中,当且仅当对于论域U上所有元素x,恒有μA(x)≤μB(x)。 4) 模糊集合的并、交、补 μ(A∪B)(x)=max{μA(x),μB(x)},x∈U μ(A∩B)(x)=min{μA(x),μB(x)},x∈U μ瘙綈A(x)=1-μA(x),x∈U 5) 模糊集合的积 设A、B分别是论域U和论域V上的模糊集合,那么: A×B=∫U×V(μA(ui)∧μB(vj))/(ui,vj) 特别地,当A或B有一个是论域时,上面表达式可以简化为 A×V=∫U×V μA(ui)/(ui,vj) U×B=∫U×V μB(vj)/(ui,vj) 2. 模糊关系及其运算 1) 模糊关系 设U、V是论域,从U到V上的模糊关系R是指U×V上的一个模糊集合,由隶属函数μR(x)刻画,μR(x,y)代表有序对具有关系R的程度。 例5.13设某地区的身高论域U={150,160,170,180}(单位: cm),体重论域V={45,55,65,75}(单位: kg)。身高和体重两个集合的元素之间没有确定的关系,只有一定程度的关联。μ(x,y)表示x和y的关联程度,如表5.1所示。 表5.1身高与体重的模糊关系 x y 45556575 15010.20.10 1600.210.80.1 1700.10.810.2 18000.10.21 模糊关系R通常用矩阵表示,将上面表格表示转化成模糊矩阵表示,即: R=10.20.10 0.210.80.1 0.10.810.2 10.10.21 2) 模糊关系的合成 设R是U×V上的模糊关系,S是V×W上的模糊关系,则R、S的复合是U×W上的模糊关系T,记为 T=RS 其隶属函数为 T(x,y)=R(x,y)S(y,z)=supy∈V min(μR(x,y),μS(y,z))=∪y∈V(μR(x,y)∧μS(y,z)) 其中,supy∈V表示对所有y∈V取最小上界。 当论域为有限集时,模糊关系的合成运算可转化为模糊关系矩阵的乘法运算,该乘法运算类似于普通矩阵的乘法运算,区别是: 将普通矩阵乘法中的“×”换为取极小值“∧”,将普通矩阵乘法中的“+”换为取极大值“∨”。 设R为n×m阶矩阵,S为m×p阶矩阵,则RS=T是n×p阶矩阵,T的元素Tij计算如下。 Tij∪mk=1(rik∧skj),i=1,2,…,n; j=1,2,…,n 两个模糊关系能够进行合成运算的条件: 第一个模糊关系矩阵的列数=第二个模糊关系矩阵的行数。这与两个普通矩阵的乘法运算的条件相同。 例5.14设有如下两个模糊关系: R1=0.50.60.3 0.70.41 00.80 10.20.9,R2=0.21 0.80.4 0.50.3 求: R1R2。 解: R1是4×3模糊关系矩阵,R2是3×2模糊关系矩阵,因此R1R2是4×2的模糊关系矩阵,令T=R1R2,则: T(1,1)=(0.5∧0.2)∨(0.6∧0.8)∨(0.3∧0.5)=0.6 T(1,2)=(0.5∧1)∨(0.6∧0.4)∨(0.3∧0.3)=0.5 T(2,1)=(0.7∧0.2)∨(0.4∧0.8)∨(1∧0.5)=0.5 T(2,2)=(0.7∧1)∨(0.4∧0.4)∨(1∧0.3)=0.7 T(3,1)=(0∧0.2)∨(0.8∧0.8)∨(0∧0.5)=0.8 T(3,2)=(0∧1)∨(0.8∧0.4)∨(0∧0.3)=0.4 T(4,1)=(1∧0.2)∨(0.2∧0.8)∨(0.9∧0.5)=0.5 T(4,2)=(1∧1)∨(0.2∧0.4)∨(0.9∧0.3)=1 所以,得到模糊关系矩阵为 T=0.60.5 0.50.7 0.80.4 0.51 5.7.2模糊假言推理 1. 模糊规则的表示 模糊产生式规则的一般形式为 IFETHENR(CF,λ) 其中,E是用模糊命题表示的模糊条件,既可以是由单个模糊命题表示的简单条件,也可以是由多个模糊命题构成的复合条件; R是用模糊命题表示的模糊结论; CF是该产生式规则所表示的知识的可信度因子,既可以是一个确定的实数,又可以是一个模糊数或模糊语言值,CF的值由领域专家在给出规则时同时给出; λ是阈值,用于指出相应知识在什么情况下可被应用。 例如,各种形式的规则: (1) IFxisATHENyisB(λ) (2) IFxisATHENyisB(CF,λ) (3) IFx1isA1ANDx2isA2THENyisB(λ) (4) IFx1isA1ANDx2isA2ANDx3isA3THENyisB(CF,λ) 推理中所用的证据也是用模糊命题表示的,一般形式为 xisA′或xis A′(CF) 2. 证据的模糊匹配 在模糊推理中,规则的前提条件中的A与证据中的A′不一定完全相同,因此在决定选用哪条规则进行推理时必须首先考虑哪条规则的A可与A′近似匹配的问题,即它们的相似程度是否大于某个预先设定的阈值。例如,设有如下规则及证据: IFxis小THENyis 大 (0.6) xis 较小 那么,是否有“yis 大”这个结论呢?这决定于λ值,若“xis 较小”与“xis 小”的接近程度大于等于λ值,则有“yis 大”的模糊结论(其模糊值需计算),否则没有这一结论。 如何计算接近程度?有多种方法,这里举其中一种——贴近度。 设A、B分别是论域U={u1,u2,…,un}上的模糊集合,它们的贴近度定义为 (A,B)=12[A·B+(1-A⊙B)] 其中: A·B=∨U(μA(ui)∧μB(ui)),A⊙B=∧U(μA(ui)∨μB(ui))。“∧”表示取极小,“∨”表示取极大。 例5.15设U={a,b,c,d,e},有 A=0.6/a+0.8/b+1/c+0.8/d+0.6/e+0.4/f B=0.4/a+0.6/b+0.8/c+1/d+0.8/e+0.6/f 求: (A,B)。 解: A·B=0.4∨0.6∨0.8∨0.8∨0.6∨0.4=0.8 A⊙B=0.6∧0.8∧1∧1∧0.8∧0.6=0.6 那么 (A,B)=12[0.8+(1-0.6)]=0.6 3. 简单模糊推理 简单模糊推理是指规则的前提E是单一条件,结论R不含CF,即 IFxisATHENyisB(λ) 首先构造A、B之间的模糊关系R,然后通过R与前提的合成求出结论。如果已知证据是 xisA′ 且(A,A′)≥λ,那么有结论 yisB′ 其中,B′=A′R。 所以,在这种推理方法中,关键是如何构造模糊关系R。构造模糊关系有多种方法,这里只介绍扎德方法。扎德提出两种方法——条件命题的极大极小规则和条件命题的算术规则,得到的模糊关系分别记为Rm和Ra。 设A、B分别表示为 A=∫U μA(u)/u B=∫U μB(v)/v 则 Rm=(A×B)∪(瘙綈A×V)=∫U×V(μA(u)∧μB(v))∨(1-μA(u))/(u,v) Ra=(瘙綈A×V)(U×B)=∫U×V1∧(1-μA(u)+μB(v))/(u,v) 其中,表示界和,定义为 AB=min{1,μA(u)+μB(v)} 对于模糊假言推理,已知证据为“xis A′”,且(A,A′)≥λ,则由Rm和Ra求得B′m和B′a,分别为 B′m=A′Rm=A′[(A×B)∪(瘙綈A×V)] B′a=A′Ra=A′[(瘙綈A×V)∪(U×B)] 它们的隶属函数分别为 μB′m(v)=∨u∈U{μA′(u)∧[(μA(u)∧μB(v))∨(1-μA(u))]} μB′a(v)=∨u∈U{μA′(u)∧[1∧(1-μA(u)+μB(u))]} 例5.16设U=V={1,2,3,4,5},有 A=1/1+0.5/2 B=0.4/3+0.6/4+1/5 模糊规则为 IFxisATHENyisB(λ) 证据为 xisA′ 其中,A′的模糊集为A′=1/1+0.4/2+0.2/3,且有(A,A′)≥λ,求B′m、B′a。 解: 先求Rm,Ra。由前面Rm和Ra定义,知Rm(i,j)与Ra(i,j)分别为 Rm(i,j)=(μA(ui)∧μB(vj))∨(1-μA(ui)) Ra(i,j)=1∧(1-μA(ui)+μB(vj)) Rm(i,j)与Ra(i,j)分别是Rm和Ra的第i行第j列元素。例如: Rm(1,3)=(μA(u1)∧μB(v3))∨(1-μA(u1))=(1∧0.4)∨(1-1)=0.4 Ra(1,3)=1∧(1-μA(u1)+μB(v3))=1∧(1-1+0.4)=0.4 由此求出Rm、Ra,即 Rm=000.40.61 0.50.50.50.50.5 11111 11111 11111,Ra=000.40.61 0.50.50.911 11111 11111 11111 下面求B′m和B′a。 B′m=A′Rm={1,0.4,0.2,0,0}000.40.61 0.50.50.50.50.5 11111 11111 11111={0.4,0.4,0.4,0.6,1} B′a=A′Ra={1,0.4,0.2,0,0}000.40.61 0.50.50.911 11111 11111 11111={0.4,0.4,0.4,0.6,1} 这里B′m=B′a只是一个巧合,一般来说它们不一定相同。 5.8小结 本章首先讨论了不确定性推理的基本概念、不确定性研究的基本问题和主要研究方法。“不确定性”是针对已知事实和推理中所用到的知识而言的,应用这种不确定的事实和知识的推理称为不确定性推理。 目前,关于不确定性处理方法的研究主要沿着两条路线发展。一是在推理级扩展确定性推理,建立各种不确定性推理的模型,又分为数值方法和非数值方法。本章主要讨论的是数值方法,如主观Bayes方法、可信度方法、证据理论、模糊方法等。二是在控制级上处理不确定性,称为控制方法。对于处理不确定的最优方法,现在还没有一个统一的意见。 主观Bayes方法通过使用专家的主观概率,避免了所需的大量统计计算工作。主观Bayes方法讨论了信任与概率的关系、似然性问题,介绍了主观Bayes方法知识表示和推理方法。 可信度方法比较简单、直观,易于掌握和使用,并且已成功地应用于如MYCIN这样的推理链较短、概率计算精度要求不高的专家系统中。但是当推理长度较长时,由可信度的不精确估计而产生的累计误差会很大,所以它不适合长推理链的情况。 证据理论是用集合表示命题的一种处理不确定性的理论,引入信任函数而非概率来度量不确定性,并引入似然函数来处理不知道所引起的不确定性问题,只需要满足比概率论更弱的公理系统。证据理论基础严密,专门针对专家系统,是一种很有吸引力的不确定性推理模型。但如何把它普遍应用于专家系统,目前还没有一个统一的意见。 模糊推理建立在传统的假言推理之上,涉及两方面: 一是前提是否匹配。传统的假言推理要求严格的匹配,而模糊假言推理是模糊匹配,引入了贴近度的概念,只有前提的模糊集与证据的模糊集的贴近度超过专家给定的阈值,才认为是匹配的; 二是当前提与证据模糊匹配后,结论的模糊性如何计算。本章的方法是按照扎德给出的条件命题的极大极小规则和条件命题的算术规则,得到模糊关系Rm和Ra,然后经过模糊关系的合成,计算结论的模糊性。 习题 5.1不确定推理的概念是什么?为什么要采用不确定推理? 5.2不确定推理中需要解决的基本问题是什么? 5.3主观Bayes方法的优点是什么?有什么问题?试说明LS和LN的意义。 5.4为什么要在MYCIN中提出可信度方法?可信度方法还有什么问题? 5.5何谓可信度?说明规则强度CF(H,E)的含义。 5.6设有三个独立的结论H1,H2,H3及两个独立的证据E1,E2,它们的先验概率和条件概率分别为 P(H1)=0.4,P(H2)=0.3,P(H3)=0.3 P(E1|H1)=0.5,P(E1|H2)=0.3,P(E1|H3)=0.5 P(E2|H1)=0.7,P(E2|H2)=0.9,P(E2|H3)=0.1 利用概率方法求出: (1) 当只有证据E1出现时,P(H1|E1)、P(H2|E1)及P(H3|E1)的值; 并说明E1的出现对H1,H2,H3的影响。 (2) 当E1和E2同时出现时,P(H1|E1,E2)、P(H2|E1,E2)及P(H3|E1,E2)的值; 并说明E1和E2同时出现对H1,H2,H3的影响。 5.7设有如下规则: R1: IFE1THEN(20,0.01)H1(0.06) R2: IFE2THEN(10,0.1)H2(0.05) R3: IFE3THEN(1,1)H3(0.4) 求: 当证据E1,E2,E3存在时,P(Hi|Ei)的值各是多少? 5.8设有如下规则: R1: IFE1THEN(20,0.1)H R2: IFE2THEN(300,0.1)H 已知: 证据E1和E2必然发生,并且P(H)=0.03,求: H的后验概率。 5.9设有规则: R1: IFE1THEN(65,0.01)H R2: IFE2THEN(300,0.0001)H 已知: P(E1|S1)=0.5,P(E2|S2)=0.2,P(E1)=0.1,P(E2)=0.03,P(H)=0.01。 求: P(H|S1,S2) 5.10设有如下规则: R1: IFE1THENH(0.8) R2: IFE2THENH(0.6) R3: IFE3THENH(-0.5) R4: IFE4AND(E5ORE6)THENE1(0.7) R5: IFE5ANDE8THENE3(0.7) 且已知: CF(E2)=0.8,CF(E4)=0.5,CF(E5)=0.6,CF(E6)=0.7,CF(E7)=0.6,CF(E8)=0.9。 求: H的综合可信度CF(H)。 5.11请说明证据理论中概率分配函数、信任函数、似然函数及类概率函数的含义。 5.12设Ω={红,黄,绿},A={红,黄},有如下的概率分配函数: m(,{红},{黄},{绿},{红,黄,绿})=(0,0.6,0.2,0.1,0.1) 求: m(Ω),Bel(A),Pl(A),f(A)的值。 5.13已知f(E1)=0.6,f(E2)=0.7,|Ω|=20,E1∧E2→H,H={h1,h2},(c1,c2)=(0.5,0.3)。计算f(H)。 5.14设有如下规则: R1: IFE1ANDE2THENA={a1,a2}CF={0.3,0.5} R2: IFE3AND(E4ORE5)THENB={b1}CF={0.7} R3: IFATHENH={h1,h2,h3}CF={0.1,0.5,0.3} R4: IFBTHENH={h1,h2,h3}CF={0.4,0.2,0.1} 已知用户对初始证据给出的确定性为 f(E1)=0.8,f(E2)=0.6,f(E3)=0.9,f(E4)=0.5,f(E5)=0.7。 并假定Ω中的元素个数|Ω|=10。求: f(H)。 5.15设有如下两个模糊关系: R1=0.30.70.2 100.4 00.51 0.60.70.8,R2=0.20.8 0.60.4 0.90.1 求: R1R2。 5.16设U=V={1,2,3,4},有 A=0.8/1+0.5/2+0.2/3 B=0.3/2+0.7/3+0.9/4 模糊规则为 IFxisATHENyisB(λ) 证据为 xisA′ 其中,A′的模糊集为A′=0.8/1+0.5/2+0.2/3,且有(A,A′)≥λ。求: B′m、B′a。