第3章 CHAPTER 3 离散信道与平均互信息量 信道是信息传递的通道,承担信息的传输任务,是构成通信系统的重要组成部分。本章将讨论信道模块,并重点探讨离散信道及其所能传送的信息量——平均互信息量。 3.1信道的模型和分类 一般来说,信道指传输信息的物理媒质,如电缆、光缆、电波、光波等。为了集中精力讨论信息理论,本章不研究具体的物理传输媒质的特性,而是研究由这些物理传输媒质及相应的调制解调器组成的编码信道的特性,或者更进一步,研究由编码信道与信道编译码器和信源编译码器组成的等效信道的特性。 3.1.1信道的系统模型 图3.1描绘了关注信道的一般通信系统模型。图3.1中编码器包括信源编码器与信道编码器,而译码器包括信源译码器与信道译码器。根据不同的研究需要,图3.1可简化成图3.2和图3.3。通过图3.2,可研究各种编码信道的传信能力,包括它的信息传输速率和信道容量; 通过图3.3,可了解消息从信源输出到信宿接收这一过程的等效信道特性。 图3.1关注信道的一般通信系统模型 图3.2关注编码信道的通信系统简化模型 图3.3关注等效信道的通信系统简化模型 3.1.2信道的分类 信道可以从不同的角度加以分类,我们所关注的等效信道归纳起来主要可分为以下五类。 1. 根据信道输入和输出空间的连续与否进行分类 (1) 离散信道。输入和输出均为离散消息的集合,有时也称为数字信道。 (2) 连续信道。输入和输出均为连续消息的集合,又称为模拟信道。波形信道是典型的连续信道。 (3) 半连续信道。在输入和输出中,一个是离散消息集合,另一个是连续消息集合。 2. 根据信道输入、输出消息集合的个数分类 (1) 两端信道。在信道的输入端和输出端中,每端只有一个消息集合,即只有一对用户在信道两端进行单向通信,也称为单用户或单路信道。 (2) 多端信道。在信道的输入端和输出端中,至少有一端具有一个以上的消息集合,也称为多用户信道,典型的多用户信道有多元接入信道和广播信道。 3. 根据信道的统计特性分类 (1) 恒参信道。信道统计特性不随时间变化,又称为平稳信道,如有线信道。 (2) 随参信道。信道统计特性随时间变化,如无线信道。 4. 根据信道的记忆特性分类 (1) 无记忆信道。信道输出仅与当前输入有关,而与以前输入无关。目前离散无记忆信道的理论发展得比较成熟和完整,因此本章将会进行介绍。 (2) 有记忆信道。信道输出不仅与当前输入有关,而与以前的输入有关。码间串扰信道和衰落信道都是有记忆信道。 5. 根据信道上是否存在干扰进行分类 (1) 无扰信道。指信道上没有干扰,这是一种理想化的信道,如计算机与其外设之间的数据传输信道。 (2) 有扰信道。指信道上存在干扰,实际上大部分信道都是有扰信道,特别是无线信道。 本章将侧重讨论恒参、无记忆、单路的离散信道。 3.1.3离散信道的数学模型 图3.4离散信道的数学模型 从统计数学角度看,离散信道可以看成一个随机变换,将输入的随机序列x变换成输出的随机序列y。由于干扰存在,输入x总是以一定的条件概率P(y|x)变换成输出y。因此,离散信道的数学模型可以表示为{X,P(y|x),Y},如图3.4所示。其中条件概率P(y|x)反映了信道的统计特征,称为信道转移概率或传递概率,具体描述如下: 设离散信道输入符号集为A={a1,a2,…,an},相应的概率分布为{P(ai)=pi,i=1,2,…,n}; 信道输出符号集为B={b1,b2,…,bm},而其概率分布为{P(bj)=qj,j=1,2,…,m}。那么信道输入序列X=(X1,X2,…,XK)可取值为x=(x1,x2,…,xK),其中xk∈A,1≤k≤K; 而信道输出序列Y=(Y1,Y2,…,YK)可取值为y=(y1,y2,…,yK),其中yk∈B,1≤k≤K。这样信道转移概率可表示为 P(y|x)=P(y1y2…yK|x1x2…xK)(3.1) 对于理想的无扰信道,输入的取值序列x与输出的取值序列y之间有一种确定的一一对应关系,即y=f(x)。这样式(3.1)变为 P(y|x)=1,y=f(x) 0,y≠f(x) 实际信道中常常是有干扰的,那么输入的取值序列x与输出的取值序列y之间不会有确定的一一对应关系。在实际有干扰的信道中,无记忆信道是比较简单容易进行分析的信道。 1. 离散无记忆信道 对于离散无记忆信道,其任意时刻输入符号只与对应时刻的输入符号有关,而与以前时刻的输入符号、输出符号无关,也与以后的输入符号无关。 命题3.1满足离散无记忆信道{X,P(y|x),Y}的充分必要条件是 P(y|x)=∏Kk=1P(yk|xk)(3.2) 证明(必要性)假定离散信道{X,P(y|x),Y}是无记忆的,则有 P(y1|x1x2…xK)=P(y1|x1) P(y2|x1x2…xKy1)=P(y2|x2)  P(yK|x1x2…xKy1y2…yK-1)=P(yK|xK) 进而有 P(y|x)=P(y1|x1x2…xK)P(y2|x1x2…xKy1)P(y3|x1x2…xKy1y2)… P(yK-1|x1x2…xKy1y2…yK-2)·P(yK|x1x2…xKy1y2…yK-1) =∏Kk=1P(yk|xk) 因此式(3.2)成立。 (充分性)由于式(3.2)成立,可推得 P(yK|x1x2…xKy1y2…yK-1) =P(y1y2…yK|x1x2…xK)P(y1y2…yK-1|x1x2…xK) =∏Kk=1P(yk|xk)∑yKP(y1y2…yK|x1x2…xK) =∏Kk=1P(yk|xk)∑yKP(yK|xK)∏K-1k=1P(yk|xk) =P(yK|xK) 同理可推得 P(yK-1|x1x2…xKy1y2…yK-2)=P(yK-1|xK-1)  P(y1|x1x2…xK)=P(y1|x1) 因此该信道是无记忆的。■ 对于离散无记忆信道,若还满足对任意的i、j,有 P(yk=bj|xk=ai)=P(y1=bj|x1=ai),k=1,2,…,K(3.3) 则称之为平稳的离散无记忆信道。平稳离散无记忆信道的转移概率不随时间变化,因此可用一维概率分布来描述。一般情况下,若无特殊声明,所讨论的离散无记忆信道均是平稳的。这样,在离散无记忆条件下,只需研究单个符号的传输。 2. 单符号离散信道 1) 一般单符号离散信道 单符号离散信道的数学模型变得特别简单,可表示为 {X,P(y|x),Y} 其转移概率简化为 P(y|x)=P(Y=bj|X=ai)=P(bj|ai) 并且满足 P(bj|ai)≥0,∑jP(bj|ai)=1 其中ai∈A={a1,a2,…,an},bj∈B={b1,b2,…,bm}。 所有转移概率放在一起组成一个矩阵,称为信道矩阵,简记为P=[Pij],其中Pij=P(bj|ai)。 2) 二进制对称信道 如令A=B={0,1},则信道矩阵为 P(0|0)P(0|1) P(1|0)P(1|1) 图3.5二进制对称信道 进一步,如还有P(1|0)=P(0|1)=p成立,则称这种信道为二进制对称信道,如图3.5所示。这时信道矩阵变为 P=p-p pp-(3.4) 这里p-=1-p。 3) 二进制删除信道 在A={0,1}和B={0,?,1}时,如果还有P(1|0)=P(0|1)=p且P(x|0)=P(x|1)=q成立,则称这种信道为二进制删除信道,如图3.6所示。二进制删除信道的信道矩阵表示为 P=1-p-qqp pq1-p-q(3.5) 进一步,如果p=0,那么如图3.6所示的模型将用如图3.7所示的模型代替,称此特殊的二进制删除信道为二进制纯删除信道,并称q为删除概率。二进制删除信道的信道矩阵简化为 P=1-qq0 0q1-q(3.6) 图3.6二进制删除信道 图3.7二进制纯删除信道 在编码通信技术中,二进制对称信道和二进制删除信道是两个典型的编码信道模型,具体将会在第6章进行讨论。 3.2互信息量与平均互信息量 2.2节研究了离散信源含有多少信息量的问题,本节将探讨通过离散信道能得到多少信息量。 3.2.1互信息量 图3.8通信系统简化模型 考虑一个简单的通信系统简化模型,如图3.8所示。X表示信源发出的符号消息集合,而Y表示信宿接收的符号消息集合。每个符号消息相当于一个随机事件,X与Y均是由随机事件形成的集合,其概率空间分别为 X P=x1x2…xn P(x1)P(x2)…P(xn) Y P=y1y2…ym P(y1)P(y2)…P(ym) 这里xi表示一个随机事件,其出现的概率为P(xi),P(xi)也称为先验概率。信源发送xi时所含有的自信息量为I(xi)=-logP(xi),它表示xi的不确定度。这里yj也表示一个随机事件,其出现的概率为P(yj)。假定信宿收到yj,那么在已知yj的情况下关于xi可能出现的概率就是条件概率P(xi|yj),P(xi|yj)也称为后验概率。此时xi的自信息量就变为I(xi|yj)=-logP(xi|yj),这是此时xi的不确定度。条件自信息量I(xi|yj)的大小能反映信道的好与坏。如果信道非常好,没有任何干扰,那么已知yj即已知xi,应有I(xi|yj)=0,xi的不确定度变为零; 反之,如果信道很差,干扰表现强烈,导致xi与yj统计独立,即没有获得任何关于xi的信息,那么应有I(xi|yj)=I(xi),xi的不确定度没有变化。一般而言,如果信道不错,干扰较弱,就能获得关于xi的一些信息,那么应有I(xi|yj)0,P(xi)P(xi|yj) 互信息量为正,意味着事件yi的出现有助于肯定事件xi的出现; 反之,则是不利的。造成不利的原因是信道干扰。 例3.1考虑如图3.5所示的二进制对称信道,其信道矩阵为P=p-p pp-。假定信源发出0和1的概率为P(x=0)=P(x=1)=12,计算如下四种情况下的互信息量I(x=0; y=0)。 (1) 当p=0时,P(x=0|y=0)=1,因此I(x=0; y=0)=log11/2=1(bit); (2) 当p=14时,P(x=0|y=0)=34,因此I(x=0; y=0)=log3/41/2=0.585(bit); (3) 当p=12时,P(x=0|y=0)=12,因此I(x=0; y=0)=log1/21/2=0(bit); (4) 当p=34时,P(x=0|y=0)=14,因此I(x=0; y=0)=log1/41/2=-1(bit)。 注: 由于P(xi,yj)=P(xi)P(yj|xi)=P(yj)P(xi|yj),因此 P(xi|yj)=P(xi,yj)P(yj) 因此,为能计算出P(xi|yj),先要计算出P(xi,yj)=P(xi)P(yj|xi),然后再计算出P(yj)=∑iP(xi,yj)。■ 3.2.2平均互信息量 上述互信息量描述了通过信道信宿从事件yj获得关于事件xi的信息量。可是,它并不是信道传递多少信息的整体测度。因此,就像定义平均自信息量一样,需要定义平均互信息量这一概念,以从整体的角度刻画通过信道信宿获得关于信源的平均信息量。 定义3.2对于两个随机事件集合X与Y,已知事件yj提供关于集合X的平均信息量定义为 I(X; yj)def∑iP(xi|yj)I(xi; yj) =∑iP(xi|yj)logP(xi|yj)P(xi)(3.8) 称之为平均条件互信息量。进而定义集合Y提供关于集合X的平均信息量为 I(X; Y)def∑jP(yj)I(X; yj) =∑i,jP(yj)P(xi|yj)logP(xi|yj)P(xi) =∑i,jP(xi,yj)logP(xi|yj)P(xi) =∑i,jP(xi,yj)I(xi; yj)(3.9) 称之为平均互信息量。 平均互信息量表示信源的信息通过信道后传输到信宿的平均信息量。平均互信息量有以下几个基本性质。 1. 互易性 I(X; Y)=I(Y; X)(3.10) 由互信息量与联合概率的互易性容易证明平均互信息量的互易性。 平均互信息量的互易性表明,从Y中提取关于X的信息量等于从X中提取关于Y的信息量。 2. 非负性 I(X; Y)≥0(3.11) 由于P(yj)≥0,从平均互信息量的定义式(3.9)可知,只需证明I(X; yj)≥0成立即可。由式(3.8)得 I(X; yj)=∑iP(xi|yj)logP(xi|yj)P(xi) 令pi=P(xi|yj)和qi=P(xi),显然 ∑ipi=∑iqi=1 这样应用引理2.2可知,I(X; yj)≥0成立。 这个性质告诉我们,通过一个信道获得的平均信息量不可能是负值。也就是说,观察一个信道的输出,从平均的角度来看总能消除一些不确定性,从而获得一些信息。除非信道输入和输出是统计独立的,才得不到任何信息。 例3.2考虑图3.5所示的二进制对称信道,假定信源发出0和1的概率为P(x=0)=P(x=1)=12,而信道出错的概率为P(y=1|x=0)=P(y=0|x=1)=34,计算I(X; y=0)。 这是例3.1的继续讨论。参考例3.1的“注”可计算出 P(x=1|y=0)=34 P(x=0|y=0)=14 因此 I(x=1; y=0)=log3/41/2=0.585(bit) I(x=0; y=0)=log1/41/2=-1(bit) I(X; y=0) =P(x=1|y=0)I(x=1; y=0)+P(x=0|y=0)I(x=0; y=0) =34·0.585+14·(-1)=0.189>0■ 3. 极值性 I(X; Y)≤H(X),I(X; Y)≤H(Y)(3.12) 任何两个事件之间的互信息量不可能大于其中任一事件的自信息量,即 I(xi; yj)≤I(xi),I(xi; yj)≤I(yj) 那么对上述不等式两边做统计平均即可证得式(3.12)成立。 平均互信息量极值性表明: 不管信道条件多么好,信宿所能获得的平均信息量不会超过集合X本身含有的信息量H(X),也不会超过集合Y本身含有的信息量H(Y)。 4. 与各种熵的关系 I(X; Y)=H(X)-H(X|Y)(3.13) I(X; Y)=H(Y)-H(Y|X)(3.14) I(X; Y)=H(X)+H(Y)-H(X,Y)(3.15) 从平均互信息量的定义式(3.9)可知 I(X; Y)=∑i,jP(xi,yj)logP(xi|yj)P(xi) =-∑i,jP(xi,yj)logP(xi)+∑i,jP(xi,yj)logP(xi|yj) =-∑iP(xi)logP(xi)+∑i,jP(xi,yj)logP(xi|yj) =H(X)-H(X|Y) 因此推得式(3.13)。利用互易性和式(3.13)易证式(3.14)。再利用熵函数的可加性可证式(3.15)。 H(X)表示信宿在收到Y之前关于X的平均不确定度,而条件熵H(X|Y)表示信宿在收到Y之后关于X的尚存的平均不确定度,其大小能反映信道好坏,故称为信道疑义度,有时也称为损失熵。至于条件熵H(Y|X),其大小完全为信道中的干扰或者说噪声强弱确定,故称为噪声熵。平均互信息量、信息熵、联合熵、噪声熵及损失熵之间的关系如图3.9所示。 图3.9平均互信息量与各种熵之间关系图 例3.3考虑一个二进制删除信道。已知 P(x=0)=13,P(x=1)=23 P(y=0|x=0)=23,P(y=?|x=0)=16,P(y=1|x=0)=16 P(y=0|x=1)=16,P(y=?|x=1)=16,P(y=1|x=1)=23 求H(X)、H(Y)、H(X,Y)、H(X|Y)、H(Y|X)及I(X; Y)。 解由已知,显然有 PX=1323,PY|X=231616 161623 则 PY=PX·PY|X=1316112 于是有 H(X)=-13log13-23log23=0.918 H(Y)=-13log13-16log16-112log112=1.459 另外,也有 PXY=130 023231616 161623=29118118 191949 因此 H(X,Y)=-∑x,yP(x,y)logP(x,y)=2.170 这样应用各种熵之间关系式有 H(X|Y)=H(X,Y)-H(Y)=0.711 H(Y|X)=H(X,Y)-H(X)=1.252 I(X;Y)=H(X)-H(X|Y)=0.207■ 5. 凸函数性 (1) 当信道固定即信道转移概率{P(y|x)}固定时,平均互信息量I(X; Y)是关于信源概率分布{P(x)}的上凸函数。 (2) 当信源固定即信源概率分布{P(x)}固定时,平均互信息量I(X; Y)是关于信道转移概率{P(y|x)}的下凸函数。 由式(3.14)可知 I(X; Y)=∑x,yP(x,y)logP(y|x)P(y) =∑x,yP(x)P(y|x)logP(y|x)P(y) 其中, P(y)=∑xP(x,y)=∑xP(x)P(y|x) 因此平均互信息量I(X; Y)是关于信源概率分布{P(x)}与信道转移概率{P(y|x)}的函数,即 I(X; Y)=f({P(x)},{P(y|x)}) 下面先举例说明信源概率分布与信道转移概率如何影响平均互信息量,然后再证明平均互信息量的凸函数性质。 例3.4继续考虑如图3.5所示的二进制对称信道,设其信道矩阵和先验概率分布分别为 P=p-p pp- X P=01 ωω- 其中,p-=1-p,ω-=1-ω。从式(3.14)知,I(X; Y)=H(Y)-H(Y|X)。因此,为计算出I(X; Y),需先分别计算出H(Y)和H(Y|X)。由于 P(y=0)=P(x=0,y=0)+P(x=1,y=0) 因此有P(y=0)=ωp-+ω-p,类似有P(y=1)=ωp+ω-p-,故得 H(Y)=-∑yP(y)logP(y)=H(ωp-+ω-p) 此外有 H(Y|X)=-∑x.yP(x,y)logP(y|x) =-∑x,yP(x)P(y|x)logP(y|x) =-∑xP(x)∑yP(y|x)logP(y|x) =-plogp-p-logp- =H(p) 因此 I(X; Y)=H(ωp-+ω-p)-H(p)(3.16) 当信道固定即p固定时,H(p)为常数,且有0≤H(p)≤1。记q=ωp-+ω-p。H(q)关于q为上凸函数。鉴于q与ω的线性关系,可以推出I(X; Y)关于ω具有上凸性。此外,当ω=ω-=12时,H(q)=H12=1达到最大,当ω=0,1时,H(q)=H(p)达到最小。 注: 对于熵函数H(p1,p2,…,pn),当n=2时,简记H(p1,p2)为H(p1)。 另外,当信源固定,即ω固定时,可推知I(X; Y)是关于p的下凸函数。特别地,当ω=0,1时,I(X; Y)=0; 当ω=12时,I(X; Y)=1-H(p)。二进制对称信道下的平均互信息量如图3.10所示。■ 图3.10二进制对称信道下的平均互信息量 平均互信息量凸函数性质(1)意味着,若固定某信道,选择概率分布不同的信源与信道连接,在信宿所获得的平均信息量可能是不同的。而且对于每个固定信道,一定存在一种信源,它的概率分布可使信宿所获得的平均信息量达到最大。而凸函数性质(2)意味着,当信源固定后,选择信道转移概率不同的信道来传输该信源发送的符号,信宿所获得的平均信息量可能是不同的。而且对于每个固定信源,一定存在一种信道,它的信道转移概率可使信宿所获得的平均信息量达到最小。下面分别证明这两条凸函数性质。 证明(1) 假定信道是固定的,即{P(y|x)}是已知且不变的,而信源的概率分布即信源的{P(x)}是可变的(只要使∑xP(x)=1成立即可)。令{P1(x)}和{P2(x)}为信源的两种不同分布,相应的平均互信息量分别记为 I[P1]=I(X1; Y),I[P2]=I(X2; Y) 先选取参数θ∈(0,1),并记θ-=1-θ。再选择另一种概率分布{P(x)}满足 P(x)=θP1(x)+θ-P2(x) 显然,还有∑xP(x)=1成立。{P(x)}相应的平均互信息量记为I[P]=I(X,Y)。为证平均互信息量是关于信源概率分布的上凸函数,需要证明如下不等式成立 θI[P1]+θ-I[P2]≤I[θP1+θ-P2] 或需要证明如下不等式成立 θI[P1]+θ-I[P2]-I[P]≤0(3.17) 由式(3.14)可知有 θI[P1]+θ-I[P2]-I[P] =θ∑x,yP1(x,y)logP(y|x)P1(y)+θ-∑x,yP2(x,y)logP(y|x)P2(y)-∑x,yP(x,y)logP(y|x)P(y)(3.18) 由于 P(x,y)=P(x)P(y|x) =[θP1(x)+θ-P2(x)]P(y|x) =θP1(x,y)+θ-P2(x,y) 因此 ∑x,yP(x,y)logP(y|x)P(y)=∑x,y[θP1(x,y)+θ-P2(x,y)]·logP(y|x)P(y) 这样式(3.18)变为 θI[P1]+θ-I[P2]-I[P] =θ∑x,yP1(x,y)logP(y|x)P1(y)P(y|x)P(y)+θ-∑x,yP2(x,y)logP(y|x)P2(y)P(y|x)P(y) =θ∑x,yP1(x,y)logP(y)P1(y)+θ-∑x,yP2(x,y)logP(y)P2(y)(3.19) 应用引理2.2,可知 ∑x,yP1(x,y)logP(y)P1(y)=∑yP1(y)logP(y)P1(y)≤0 ∑x,yP2(x,y)logP(y)P2(y)=∑yP2(y)logP(y)P2(y)≤0 这样θI[P1]+θ-I[P2]-I[P]≤0,从而式(3.17)成立,即证得性质(1)。 (2) 假定信源概率分布{P(x)}是固定的。令{P1(y|x)}与{P2(y|x)}表示两个不同的信道,相应的互信息量分别记为I[P1|]与I[P2|]。选取θ∈(0,1),并令 P(y|x)=θP1(y|x)+θ-P2(y|x) 则{P(y|x)}形成一个新信道,其互信息量记为I[P|]。为证平均互信息量是关于信道转移概率的下凸函数,需要证明如下不等式成立 I[P|]=I[θP1|+θ-P2|]≤θI[P1|]+θ-I[P2|] 由式(3.14)有 I[P|]-θI[P1|]+θ-I[P2|] =∑x,yP(x,y)logP(y|x)P(y)-∑x,yθP1(x,y)logP1(y|x)P(y)-∑x,yθ-P2(x,y)logP2(y|x)P(y)(3.20) 既然 P(x,y)=P(x)P(y|x)=P(x)[θP1(y|x)+θ-P2(y|x)] 并且 P(x,y)=P(y|x)P(x) P1(x,y)=P1(y|x)P(x) P2(x,y)=P2(y|x)P(x) 所以 P(x,y)=θP1(x,y)+θ-P2(x,y) 故式(3.20)可再表示为 I[P|]-θI[P1|]+θ-I[P2|] =θ∑x,yP1(x,y)logP(y|x)P1(y|x)+θ-∑XYP2(x,y)logP(y|x)P2(y|x)(3.21) 再次应用引理2.2,可知 ∑x,yP1(x,y)logP(y|x)P1(y|x)=∑x,yP1(x,y)logP(x,y)P1(x,y)≤0 ∑x,yP2(x,y)logP(y|x)P2(y|x)=∑x,yP2(x,y)logP(x,y)P2(x,y)≤0 从而I[P|]-θI[P1|]+θ-I[P2|]≤0,即证得性质(2)。■ 3.3信道容量 3.3.1信道容量的定义 现在考虑二进制对称信道传送信息的能力。由例3.4可知,当信道固定即p固定时,平均互信息量I(X; Y)=H(ωp-+ω-p)-H(p)是关于ω的上凸函数,并当ω=1/2时取得最大值 C=max{I(X; Y)}=1-H(p) 图3.11二进制对称信道的信道容量 这个最大值C反映该信道最大传输信息能力,与信道输入X的概率分布ω无关,只与信道传递概率p有关。因此,C是信道特性参数,称为信道容量。C与p的关系曲线如图3.11所示。容易发现,信道容量C也是关于p的下凸函数。当p=0时,信道无干扰,信道容量达到最大值C=1; 当p=1/2时,信道干扰最大,信道容量达到最小值C=0,即信道没有传送任何信息。 定义3.3对于一个离散信道,其输入为X,输出为Y。该信道的信道容量定义为 C=max{P(x)}{I(X; Y)}(3.22) 信道容量C的单位一般也是比特(或比特/符号)。由平均互信息量的凸函数性质可知,I(X; Y)是关于{P(x)}的上凸函数,因此C是一直存在的。信道容量C是关于{P(y|x)}的函数,与{P(x)}无关,它表征了信道传送信息的最大能力。 此外,也称信道中平均每个符号所能传送的信息量为信息传输率,并记为R。实际上,信息传输率就是平均互信息量,因此有 R=I(X; Y)=H(X)-H(X|Y)≤C 有时关心的是信道在单位时间内平均传输的信息量,如果平均传输一个符号为t秒,则信道每秒钟平均传输的信息量为 Rt=1tI(X; Y)(bps) 一般称为信息传输速率。在单位时间平均传输的最大信息量则为 Ct=1tmax{P(x)}{I(X; Y)}(bps) 一般仍称之为信道容量。 例3.5考虑如图3.7所示的二进制纯删除信道,设删除概率为q,并记q-=1-q。假定信源概率分布为P(x=0)=ω,P(x=1)=ω-=1-ω。依据先验概率和信道转移概率,可有 P(y=0)=ω·q-+ω-·0=ωq- P(y=1)=ω·0+ω-·q-=ω-q- P(y=?)=ω·q+ω-·q=q 于是有 H(Y)=-[ωq-log(ωq-)+ω-q-log(ω-q-)+qlog(q)] =q-H(ω)+H(q) 图3.12二进制纯删除信道的信道容量 又有 H(Y|X)=[P(x=0)+P(x=1)]·H(q)=H(q) 故得 I(X; Y)=H(Y)-H(Y|X)=q-H(ω) 显然,当ω=1/2时,I(X; Y)达到信道容量为 C=1-q C与q的关系曲线如图3.12所示。显然,当q=0时,信道无干扰,信道容量达到最大值C=1; 当q=1时,信道干扰最大,信道容量达到最小值C=0,即信道没有传送任何信息。■ 3.3.2无噪信道的信道容量 离散无噪信道的输出Y和输入X之间有着某种确定的关系,按照H(X)≤H(Y)、H(X)≥H(Y)、H(X)=H(Y)分为无损信道、确定信道、无损确定信道。 1. 无损信道 设输入符号集为A={a1,a2,…,an},输出符号集为B={b1,b2,…,bm}。无损信道指一个输入对应多个互不相交的输出,即 aiBi,BiB,|Bi|≥1 Bi∩Bj=,i≠j 在无损信道的信道矩阵中,每列只有一个非零元素。例如,一个n=3时的信道矩阵为 P=12120000 00353101100 000001 对于无损信道,信宿接收到Y以后,必可知信源所发送的X,故信道的后验概率为 P(ai|bj)=0,bjBi 1,bj∈Bi 因此信道疑义度(损失熵)H(X|Y)=0,故 I(X; Y)=H(X)-H(X|Y)=H(X) 这样 H(X)=H(Y)-H(Y|X) 在这类信道中,因为信源发出符号ai,并不一定能断定在信宿会收到哪个bj,而是依一定概率接收Bi中的某一个bj,因此噪声熵H(Y|X)≥0。故应有 H(X)≤H(Y) 显然,无损信道的信道容量应等于 C=max{P(x)}{I(X; Y)}=max{P(x)}H(X)=logn 2. 确定信道 确定信道是指一个输出对应多个互不相交的输入,即 Ajbj,AjA,|Aj|≥1 Ai∩Aj=,i≠j 其信道矩阵的每行只有一个1,其余为0。例如,一个m=2时的信道矩阵为 P=10 10 01 01 01 确定信道的转移概率为 P(bj|ai)=0,aiAj 1,ai∈Aj 因为发出某一个ai,可以知道信道输出端接收到的是哪一个bj,故噪声熵H(Y|X)=0,且还有 I(X; Y)=H(Y)-H(Y|X)=H(Y) 因此 H(Y)=H(X)-H(X|Y) 在这类信道中,信宿接收到某个bj后,并不一定能断定信源发出的是哪个ai,因而信道疑义度H(X|Y)≥0。故 H(X)≥H(Y) 确定信道的信道容量等于 C=max{P(x)}{I(X; Y)}=max{P(x)}H(Y)=logm 即达到此类信道的信道容量的概率分布是使信道输出分布为等概率分布的输入分布。 3. 无损确定信道 无干扰信道也称为无损确定信道。无损确定信道的输入与输出是一一对应的关系,其信道矩阵每行每列只有一个非零元素1。例如,当n=3时,有m=3,其信道矩阵为单位矩阵 P=100 010 001 一般地,对于无损确定信道,有 P(bj|ai)=P(ai|bj)=0,i≠j 1,i=j H(Y|X)=H(X|Y)=0 I(X; Y)=H(X)=H(Y) C=max{P(x)}{I(X; Y)}=logn=logm 3.3.3对称信道的信道容量 考虑一个单符号离散信道,设其输入符号集为A={a1,a2,…,an},输出符号集为B={b1,b2,…,bm}。若在信道矩阵中,每行都是其他行的同一组元素不同排列,则称此类信道为输入对称信道。对于输入对称信道,应有 H(Y|X)=-∑i,jP(ai,bj)logP(bj|ai) =-∑iP(ai)∑jP(bj|ai)logP(bj|ai) =-∑jP(bj|ai)logP(bj|ai) =H(Y|X=ai)(3.23) 例如,信道矩阵为 P=13131616 16131613 的信道及如图3.6所示的二进制删除信道都是输入对称信道。另外,若在信道矩阵中,每列都是其他列的同一组元素的不同排列,则该类信道称为输出对称信道。例如,信道矩阵为 P=0.40.6 0.60.4 0.50.5 的信道是输出对称信道。而信道矩阵为 P=13131616 16161313 和 P=121316 161213 131612(3.24) 的信道及二进制对称信道既是输入对称信道又是输出对称信道。 定义3.4若一个单符号离散信道的信道矩阵中,每行(列)都是其他行(列)的同一组元素的不同排列,则称该信道为对称信道。 如同二进制对称信道所显示的那样,对于一般的对称信道,当信道输入分布为等概率分布时,其输出分布也为等概分布。这是因为 P(bj)=∑ni=1P(ai,bj) =∑ni=1P(ai)P(bj|ai) =1n∑ni=1P(bj|ai) =1n∑ni=1Pij 进一步地,由于信道矩阵P=[Pij]中的第j列与其他j′列的所有元素之间只是重排关系,故有 ∑ni=1Pij=∑ni=1Pij′,j′≠j 这样会有 P(bj)=1m,j=1,2,…,m 这个性质很重要,可用于确定对称信道的信道容量。 命题3.2对于单符号离散对称信道,当其输入为等概率分布时,能达到信道容量 C=logm-H(p′1,p′2,…,p′m)(3.25) 其中(p′1,p′2,…,p′m)为信道矩阵中的任一行。 证明对称信道必然是输入对称的。故由式(3.23)知 H(Y|X)=H(Y|X=ai)=H(p′1,p′2,…,p′m) 其中(p′1,p′2,…,p′m)是信道矩阵P中的任一行。因此 I(X; Y)=H(Y)-H(p′1,p′2,…,p′m) C=max{P(x)}I(X; Y)=max{P(x)}H(Y)-H(p′1,p′2,…,p′m) 已知H(Y)≤logm,且在P(bj)=1m,j=1,2,…,m时等号成立。前面显示了对称信道有这样的性质: 若{P(x)}等概率分布,则{P(y)}必为等概率分布,故本命题成立。■ 例如,式(3.24)给出一个对称信道的信道矩阵。依据命题3.2,该对称信道的信道容量可计算如下 C=logm-H(p′1,p′2,…,p′m) =log3+12log12+13log13+16log16 =0.126(bit) 若信道输入符号和输出符号数目相同,即n=m,则二进制对称信道的信道矩阵可一般化为 P=p-pm-1pm-1…pm-1 pm-1p-pm-1…pm-1 pm-1pm-1pm-1…p- 称此类信道为强对称信道。强对称信道要求条件之强在于: (1) 一般信道的信道矩阵中各行之和为1,但各列之和不一定等于1; (2) 一般对称信道其输入符号数不一定等于输出符号数; (3) 一般对称信道的总错误概率p不一定平均分配给m-1个错误输出符号。 依据命题3.2,强对称信道的信道容量可计算为 C=logn-plog(n-1)-H(p) 3.3.4一般信道的信道容量 现在讨论一般情况下单符号离散信道要到达信道容量其输入概率分布应满足的条件。由于信道固定,平均互信息量I(X; Y)是关于输入概率分布{P(x)}的上凸函数,因此信道容量C=max{P(x)}{I(X; Y)}是一直存在的。I(X; Y)是关于{P(x)}的多元函数,且有∑xP(x)=1成立。故可采用拉格朗日乘子法来求解这个极大值。 设输入符号集为A={a1,a2,…,an},输出符号集为B={b1,b2,…,bm}。定义一个新函数 F({P(ai)},λ)=I(X; Y)-λ∑iP(ai) 其中,λ为拉格朗日乘子,是待定常数,要由约束条件求解。那么最优解存在于下列方程之中: FP(ak)=I(X;Y)-λ∑iP(ai)P(ak)=0,k=1,2,…,n ∑iP(ai)=1(3.26) 式(3.26)第一个方程式中第二项等于 P(ak)λ∑iP(ai)=λ 式(3.26)第一个方程式中第一项含有的平均互信息量可表示为 I(X; Y)=∑ni=1∑mj=1P(ai)P(bj|ai)logP(bj|ai)P(bj) 式中, P(bj)=∑ni=1P(ai)P(bj|ai) 对上式取对数并求导得 P(ak)logP(bj)=1P(bj)loge·P(ak)·P(bj) =P(bj|ak)P(bj)loge 这里推导时要注意有 P(ak)P(ai)=1,i=k 0,i≠k 因此,再对I(X; Y)求导会有 P(ak)I(X; Y)=P(ak)∑ni=1∑mj=1P(ai)P(bj|ai)logP(bj|ai)P(bj) =∑mj=1P(ak)∑ni=1P(ai)P(bj|ai)logP(bj|ai)P(bj)+ ∑ni=1∑mj=1P(ai)P(bj|ai)P(ak)logP(bj|ai)P(bj) =∑mj=1P(bj|ak)logP(bj|ak)P(bj)-∑ni=1∑mj=1P(ai)P(bj|ai)P(ak)logP(bj) =∑mj=1P(bj|ak)logP(bj|ak)P(bj)-∑ni=1∑mj=1P(ai)P(bj|ai)P(bj|ak)P(bj)loge =∑mj=1P(bj|ak)logP(bj|ak)P(bj)-∑mj=1P(bj|ak)loge =∑mj=1P(bj|ak)logP(bj|ak)P(bj)-loge (3.27) 因此 ∑mj=1P(bj|ak)logP(bj|ak)P(bj)-loge-λ=0 于是式(3.26)变换为 ∑mj=1P(bj|ak)logP(bj|ak)P(bj)=loge+λ,1≤k≤n ∑iP(ai)=1(3.28) 现设方程(3.28)解为{λ,P(ak),k=1,2,…,n}。那么 C=∑nk=1∑mj=1P(ak)P(bj|ak)logP(bj|ak)P(bj) =∑nk=1P(ak)(loge+λ)=loge+λ 这样有 I(ak; Y)=∑mj=1P(bj|ak)logP(bj|ak)P(bj)=C 另外,由式(3.27)可知 P(ak)I(X; Y)=I(ak: Y)-loge 因此 P(ak)I(X; Y)=λ,k=1,2,…,n 通过对上述优化求解表达式的推导,最终可以获得如下结果。 命题3.3对于一个输入符号集为A、输出符号集为B的单符号离散信道,当且仅当存在常数C使输入分布{P(ak),k=1,2,…,n}满足 I(ak; Y)=C,k∈{i: p(ai)≠0} I(ak; Y)≤C,k∈{i: p(ai)=0}(3.29) 时,I(X; Y)达极大值,此时C即为该信道的信道容量。式(3.29)可用式(3.30)取代,即 I(X; Y)p(ak)=λ,k∈{i: p(ai)≠0} I(X; Y)p(ak)≤λ,k∈{i: p(ai)=0}(3.30) 证明(充分性)简记P(ak)=pk,p={pk}。平均互信息量I(X; Y)只是输入概率分布p={pk}的函数,故可简记为I(p)。欲证输入概率分布p一定使I(p)达到最大值,只要证对于任何其他输入分布q={qk}有I(q)≤I(p)成立即可。 由于平均互信息I(p)是p的上凸函数,若设0<θ<1,θ+θ-=1,则有 θI(q)+θ-I(p)≤I(θq+θ-p) 或者 I(q)-I(p)≤1θ(I(θq+θ-p)-I(p))(3.31) 若I(p)=I(p1,…,pn),则 I(θq+θ-p)-I(p)=I[p+θ(q-p)]-I(p) =I[p1+θ(q1-p1),…,pn+θ(qn-pn)]-I(p1,…,pn) =[I(p1+θ(q1-p1),p2+θ(q2-p2),…,pn+θ(qn-pn))- I(p1,p2+θ(q2-p2),…,pn+θ(qn-pn))]+ [I(p1,p2+θ(q2-p2),p3+θ(q3-p3),…,pn+θ(qn-pn))- I(p1,p2,p3+θ(q3-p3),…,pn+θ(qn-pn))]+…+ [I(p1,p2,…,pn-1,pn+θ(qn-pn))-I(p1,p2,…,pn)] 注意到 limΔ→0f(x+Δv)-f(x)Δ=vlimΔ→0f(x+Δv)-f(x)Δv=vf′(x) 这样有 limθ→01θ[I(p1,p2,…,pk-1,pk+θ(qk-pk),…,pn+θ(qn-pn))- I(p1,p2,…,pk-1,pk,…,pn+θ(qn-pn))] =(qk-pk)I(p)p(ak) 故有 limθ→01θ[I(p+θ(q-p))-I(p)]=∑nk=1(qk-pk)I(p)pk 于是当θ→0时,式(3.31)变为 I(q)-I(p)≤∑nk=1(qk-pk)I(p)pk 若假定概率分布p满足式(3.30),那么上式可再写为 I(q)-I(p)≤λ∑nk=1(qk-pk)=0 即I(q)≤I(p)成立。 (必要性)设概率分布p使I(p)达到最大值,下证明p满足式(3.30)。设另有一个分布q={qk},且有0<θ<1,θ+θ-=1,则θq+θ-p也是一个分布。故必有I(θq+θ-p)-I(p)≤0或者1θ[I(θq+θ-p)-I(p)]≤0。由上面的充分性推导过程可知 ∑nk=1(qk-pk)I(p)pk≤0 因为∑nk=1pk=1,故存在l使pl≠1。选择q={qk}满足 ql=pl-εk=l qj=pj+εk=j qk=pkk≠l,k≠j,-pj≤ε≤pl 这样 -εplI(p)+εpjI(p)≤0 εpjI(p)≤εplI(p) 如令plI(p)=λ,必有 εpjI(p)≤λε 若pj=0,则取ε为正数,必有 pjI(p)≤λ 若pj≠0,则ε可取正数也可取负数,故有 pjI(p)≤λ,ε>0 pjI(p)≥λ,ε<0 因此有 pjI(p)=λ 说明p满足式(3.30)。■ 命题3.3表明,当信道平均互信息量达到信道容量时,信源符号集中除发生概率为零的符号外,其他每个符号均对信宿提供相同的平均互信息量。在某给定的输入分布下,若有一个输入符号x=ai对输出Y所提供的平均互信息量比其他输入符号提供的平均互信息量大,则可以更多地使用这一符号来增大平均互信息量I(X; Y),但是这将会改变输入符号的概率分布,必然使这个符号的平均互信息I(ai; Y)减小,而其他符号对应的平均互信息增加。所以,经过不断调整输入符号的概率分布,就可以使每个概率不为零的输入符号对输出Y提供相同的平均互信息量。命题3.3只给出了达到信道容量时,最佳输入概率分布应满足的条件,并没有给出输入符号的最佳概率分布值,因而也没有给出信道容量的数值。另外,命题3.3本身也隐含着: 达到信道容量的最佳输入分布并不一定是唯一的。在一些特殊情况下,可利用这一命题来找出所求的输入概率分布和信道容量。 对于一个单符号离散信道的信道矩阵,按照信道矩阵的列进行分组将矩阵分成几个子矩阵,每个子矩阵中的每行(列)都是其他行(列)的同一组元素的不同排列,则称这类信道为准对称信道。例如,二进制删除信道就是典型的准对称信道。 例3.6证明准对称信道信道容量的输入分布为等概率分布。 证明将准对称信道矩阵P分为一些子矩阵Pl,l=1,2,…,L,并保证: 在每个子矩阵Pl中,其每行(列)都是其他行(列)的同一组元素的不同排列。在输出符号指标集中,对应子矩阵Pl的指标子集记为Bl。显然,∪Ll=1Bl={1,2,…,m}。当信道输入为等概率分布即P(ak)=1n时,注意到 P(bj)=∑ni=1P(ai)P(bj|ai)=1n∑ni=1P(bj|ai) 则有 I(ak; Y)=∑mj=1P(bj|ak)logP(bj|ak)P(bj) =∑mj=1P(bj|ak)logP(bj|ak)1n∑mi=1P(bj|ai) =∑Ll=1∑j∈BlP(bj|ak)logP(bj|ak)1n∑mi=1P(bj|ai) 在子矩阵Pl中,每列都是其他列的同一组元素的重排,所以对于子矩阵Pl中的每个输出bj,其概率P(bj)=1n∑ni=1P(bj|ai)都相等,即 P(bj)=1|Bl|P(Bl),j∈Bl 又因子矩阵Pl中的每行都是其他行的同一组元素的重新排列,所以对任意ak,集{P(bj|ak),j∈Bl}与ak无关,故给定l,上述I(ak; Y)表达式中和式第l项 ∑j∈BlP(bj|ak)logP(bj|ak)1m∑mi=1P(bj|ai) 只与Bl有关,与j,k无关,记为f(Bl)。故 I(ai; Y)=∑Ll=1f(Bl)=C 为一常数。这满足命题3.3中的充要条件,从而得证。■ 图3.13单符号离散信道 例3.7一个单符号离散信道如图3.13所示,求其信道容量。 由图3.13可知,信道输入符号集为A={0,1,2},输出符号集为B={0,1},信道矩阵为 P=10 1212 01 仔细考虑此信道,可设想若输入符号1的概率等于零,该信道就成了一一对应的信道,接收到任何符号后对输入符号就是完全确定的。若输入符号1的概率不等于零,就会增加不确定性。因此,可先设输入分布为P(0)=P(2)=12,P(1)=0,然后检查它是否满足命题3.3中的充要条件。显然 P(y)=∑2x=0P(x)P(y|x)=12 则有 I(0; Y)=∑2y=1P(y|0)logP(y|0)P(y)=log2=1 I(2; Y)=∑2y=1P(y|2)logP(y|2)P(y)=log2=1 I(1; Y)=∑2y=1P(y|1)logP(y|1)P(y)=0 这满足命题3.3中的充要条件。因此,信道容量为 C=log2=1(bit) 达到信道容量的最佳概率分布为 P(0)=12,P(1)=0,P(2)=12 对于一般的离散信道,很难利用命题3.3来寻求信道容量和对应的输入概率分布,因此只能利用解方程组式(3.28)的方法,或者利用数值迭代算法进行求解。 3.3.5信源与信道匹配 给定一个信道,其信道容量C是一定的,只有一定的信源才能使信道的信息传输率R=I(X; Y)达到最大,即R等于C。一般情况下,信源与信道链接时,其信息传输率R并未到达C。当信源与信道链接时,若信源传输率R为C,则称信源与信道匹配,否则信道一定有冗余。为此定义 信道冗余度=C-I(X; Y) 信道相对冗余度=C-I(X; Y)C=1-I(X; Y)C 这两个概念可用来描述信源与信道匹配情况。例如,在无损信道中,C=logn,I(X; Y)=H(X),其中n是信道输入符号的个数,H(X)是输入信道的信息熵。因而 无损信道相对冗余度=1-H(X)logn 与第2章介绍的信源冗余度比较,它实际上就是最大熵H0对应的信源冗余度。所以提高无损信道信息传输率实际上就是减少信源冗余度。对于无损信道,可以通过信源编码来减少信源的冗余度,并使信息传输率到达信道容量,关于这部分内容将在第4章进行详细讨论。 3.4离散无记忆信道 3.4.1离散无记忆信道的数学描述 简单的离散无记忆信道数学模型如图3.14所示,用[X,P(bj|ai),Y]表示。其特点是输入与输出为单个随机变量。输入X的取值符号集记为A={a1,a2,…,an},输出Y的取值符号集记为B={b1,b2,…,bm}。简记信道传递概率P(bj|ai)为Pij。则信道矩阵可表示为P=(Pij),其中 ∑mj=1Pij=1,i=1,2,…,n 一般离散无记忆信道的数学模型如图3.15所示,用[X,P(y|x),Y]表示。其特点是输入与输出为随机序列。输入为X=(X1X2…XK),输出Y=(Y1Y2…YK)。一般而言,不同的Xi可以取不同的输入符号集Ai,不同的Yj可以取不同的输出符号集Bj,且即使相同,概率分布也可以不同。然而,如果满足 Ai=A,Bi=B Xi=X,Yi=Y 图3.14简单的离散无记忆信道数学模型 图3.15一般离散无记忆信道的数学模型 图3.16离散无记忆扩展 信道的数学模型 即输入符号集一样,输出符号集一样; 输入概率分布一样,输出概率分布一样,那么称这类离散无记忆信道为离散无记忆K次扩展信道。离散无记忆扩展信道的数学模型如图3.16所示,用[XK,P(βs|αr),YK]表示。 其中, αr=(ar1,ar2,…,arK),rk∈{1,2,…,r},k=1,2,…,K βs=(bs1,bs2,…,bsK),sk∈{1,2,…,s},k=1,2,…,K αr: r=1,2,…,nK βs: s=1,2,…,mK K次扩展信道的信道矩阵表示为 Π=[Πrs],r=1,2,…,nK; s=1,2,…,mK 其中, Πrs=P(βs|αr)=∏Kk=1P(bsk|ark) ∑mKs=1Πrs=1,r=1,2,…,nK 例3.8设一个二进制对称信道的符号集与信道矩阵分别为 A=B={0,1} P=p-p pp-,p+p-=1 则其二次扩展信道的符号集与信道矩阵分别为 A2=B2={00,01,10,11} Π=p-2p-ppp-p2 p-pp-2p2pp- pp-p2p-2p-p p2pp-p-pp-2=PP 这里表示Kronecker积,定义为: 给定一个阶数为u×v矩阵W=(wij)和一个阶数为p×q的矩阵V=(vij),那么有阶数为(up)×(vq)的矩阵 WV=[wij·V] 3.4.2离散无记忆信道的平均互信息量 单符号信道的平均互信息量定义容易推广到多符号信道。因此,对一般离散无记忆信道,有 I(X; Y) =H(X)-H(X|Y)=∑r,sP(αr,βs)logP(αr|βs)P(αr) =H(Y)-H(Y|X)=∑r,sP(αr,βs)logP(βs|αr)P(βs)(3.32) 对于K次扩展信道,我们关心I(XK; YK)与I(X; Y)之间的联系。直觉猜测的结论是I(XK; YK)=KI(X; Y)。这个结论对吗?为了解决这一问题,先考虑一般离散无记忆信道下I(X; Y)与I(Xk; Yk)之间的关系。 命题3.4对于一个如图3.15所示的离散无记忆信道[X,P(y|x),Y],有 I(X; Y)≤∑Kk=1I(Xk; Yk)(3.33) 证明考虑信道无记忆性,由式(3.32)可得 I(X; Y) =H(Y)-H(Y|X) =∑r,sP(αr,βs)logP(βs|αr)P(βs) =∑r,sP(αr,βs)log∏Kk=1P(bsk|ark)P(βs) 另外,由于P(ark,bsk)=∑r1,s1; …; rk-1,sk-1; rk+1,sk+1; …; rK,sKP(αr,βs),则有 ∑Kk=1I(Xk; Yk)=∑Kk=1∑rk,skP(ark,bsk)logP(bsk|ark)P(bsk) =∑Kk=1∑r,sP(αr,βs)logP(bsk|ark)P(bsk) =∑r,sP(αr,βs)log∏Kk=1P(bsk|ark)∏Kk=1P(bsk) 因此,有 I(X; Y)-∑Kk=1I(Xk; Yk) =∑r,sP(αr,βs)log∏Kk=1P(bsk)P(βs) =∑sP(βs)log∏Kk=1P(bsk)P(βs) =∑sP(βs)logQ(βs)P(βs)≤0 最后的不等式可通过引理2.2推得。注意: 这里Q(βs)=∏Kk=1P(bsk),且有 ∑sQ(βs)=∑s1s2…sK∏Kk=1P(bsk)=1 故有I(X; Y)≤∑Kk=1I(Xk; Yk)。■ 命题3.5若信道[X,P(y|x),Y]不一定是无记忆的,而信源一定是无记忆的,则 I(X; Y)≥∑Kk=1I(Xk; Yk)(3.34) 证明考虑信源无记忆性,由式(3.32)可得 I(X; Y) =H(X)-H(X|Y) =∑r,sP(αr,βs)logP(αr|βs)P(αr) =∑r,sP(αr,βs)logP(αr|βs)∏Kk=1P(ark) 另外,由于P(ark,bsk)=∑r1,s1; …; rk-1,sk-1; rk+1,sk+1; …; rK,sKP(αr,βs),则有 ∑Kk=1I(Xk; Yk)=∑Kk=1∑rk,skP(ark,bsk)logP(ark|bsk)P(ark) =∑Kk=1∑r,sP(αr,βs)logP(ark|bsk)P(ark) =∑r,sP(αr,βs)log∏Kk=1P(ark|bsk)∏Kk=1P(ark) 因此,有 -I(X; Y)+∑Kk=1I(Xk; Yk) =∑r,sP(αr,βs)log∏Kk=1P(ark|bsk)P(αr|βs) =∑sP(βs)∑rP(αr|βs)log∏Kk=1P(ark|bsk)P(αr|βs) =∑sP(βs)∑rP(αr|βs)logQ(αr|βs)P(αr|βs)≤0 最后的不等式可通过再次应用引理2.2推得。注意: 这里Q(αr|βs)=∏Kk=1P(ark|bsk),且有 ∑rQ(αr|βs)=∑r1…rK∏Kk=1P(ark|bsk)=1 故有I(X; Y)≥∑Kk=1I(Xk; Yk)。■ 推论3.1对于无扰的无记忆信道,有 H(X)≤∑Kk=1H(Xk)(3.35) 证明对于无扰的无记忆信道,有 H(X|Y)=0 I(X; Y)=H(X)-H(X|Y)=H(X) 类似地,还有 H(Xk|Yk)=0 I(Xk; Yk)=H(Xk)-H(Xk|Yk)=H(Xk) 这样应用命题3.4即得证。■ 推论3.2若信源和信道都是无记忆的,则 I(X; Y)=∑Kk=1I(Xk; Yk)(3.36) 推论3.3对于离散无记忆K次扩展信道,若信源是无记忆的,则 I(XK; YK)=KI(X; Y)(3.37) 此外,若信源是无记忆的,则离散无记忆K次扩展信道的信道容量等于 CK=max{P(xK)}{I(XK; YK)}=Kmax{P(x)}I(X; Y)=KC 这里C=max{P(x)}I(X; Y)=max{P(xk)}I(Xk; Yk)。即只有当输入信源是无记忆的,同时序列中每个分量Xk,k=1,2,…,K的分布各自达到最佳分布时,K次扩展信道的信道容量才能达到KC。而一般情况下,信息序列在离散无记忆K次扩展信道中传输时,平均互信息量I(XK; YK)≤KC。 3.5串联信道的平均互信息量 前面讨论了单个离散信道,实际中常常会遇到两个或更多信道组合在一起使用的情况,有并联形式、串联形式,还有混合形式。如微波中继接力通信信道就是一种串联形式,本节侧重讨论信道串联的情况。 另外,我们常常需要在信道输出端对接收到的信号或数据进行适当的处理,这种处理称为数据处理。从广义上看,数据处理可视作一种信道,它与前面传输数据的信道是串联的关系。例如,将卫星上各种测得的科学数据编成由0和1组成的二进制码,然后以脉冲形式发送到地面,地面接收站收到的是一系列振幅不同的脉冲,将这些脉冲送入判决器,当脉冲振幅大于门限值时判为1,当脉冲振幅小于门限值时判为0。在这种情况下,从卫星到地面接收站可以看成一个离散信道,其输入符号为0和1组成的二进制码,输出符号为一系列不同幅度的数值。对于判决器,也可以将它看成另一个信道,其输入符号为一系列不同幅度的数值,即前一信道的输出,而其输出为符号0和1组成的二进制码。实际上,这种判决器就是一种数据处理系统。因此,从卫星到判决器的输出可以看成两个信道的串联,下面将研究串联信道的平均互信息量问题。 假设有一离散单符号信道Ⅰ,其输入变量为X,取值A={a1,a2,…,an},输出变量为Y,取值B={b1,b2,…,bm}; 再设另有一离散单符号信道Ⅱ,其输入变量为Y,输出变量为Z,取值C={c1,c2,…,cl}。这两个信道串联起来,如图3.17所示。信道Ⅰ的转移概率是P(y|x)=P(bj|ai),信道Ⅱ的转移概率一般与前面的符号X和Y都有关,故P(z|x,y)=P(ck|ai,bj)。 显然,这两个串接信道可以等效成一个总的离散信道,如图3.18所示。此等效信道的输入为X,取值A={a1,a2,…,an},输出为Z,取值C={c1,c2,…,cl}。此信道转移概率为 P(z|x)=∑yP(y|x)·P(z|x,y) 则其信道矩阵为 P=[P(z|x)]n×l=[P(y|x)]n×m·[P(z|x,y)]m×l 图3.17离散串联信道 图3.18串联信道的等效信道 将二维联合随机变量当作一维随机变量看待,很容易将二维随机变量形成的平均互信息量概念推广到三维。即容易给出三个随机事件集X、Y、Z下的平均互信息量表达式 I(XY; Z)=H(Z)-H(Z|X,Y) =∑x,y,zP(x,y,z)logP(z|x,y)P(z) 命题3.6串联信道中的平均互信息量满足以下关系。 (1)I(XY; Z)≥I(Y; Z) 其中等号成立的充要条件是对所有x、y、z有 P(z|x,y)=P(z|y) (2)I(XY; Z)≥I(X; Z) 其中等号成立的充要条件是对所有x、y、z有 P(z|x,y)=P(z|x) 证明(1) 从上述三维平均互信息量表达式可知 I(XY; Z)=∑x,y,zP(x,y,z)logP(z|x,y)P(z) 另外 I(Y; Z)=∑y,zP(y,z)logP(z|y)P(z) =∑x,y,zP(x,y,z)logP(z|y)P(z) 因此有 I(Y; Z)-I(XY; Z) =∑x,y,zP(x,y,z)logP(z|y)P(z|x,y) =∑x,y,zP(x,y)P(z|x,y)logP(z|y)P(z|x,y) =∑x,yP(x,y)∑zP(z|x,y)logP(z|y)P(z|x,y) 因为 ∑zP(z|x,y)logP(z|y)P(z|x,y) =∑zW(z)logV(z)W(z)≤0 故有I(Y; Z)≤I(XY; Z)成立。注: 这里最后一个不等式是应用引理2.2得出的; 另外,从中定义了 W(z)=P(z|xy),V(z)=P(z|y) 并有 ∑zW(z)=1,∑zV(z)=1 显然,从引理2.2可知,当且仅当V(z)=W(z),即P(z|x,y)=P(z|y)时, I(Y; Z)=I(XY; Z) (2) 只需由Y→X,X→Y,y→x,x→y即可类似证明出结论。■ 假若信道Ⅱ的传递概率使其输出Z只与输入Y有关,与前面的输入X无关,即满足P(z|y,x)=P(z|y),则称这两信道的输入和输出X、Y、Z序列构成马尔可夫链。此时有 P(z|x)=∑yP(y|x)·P(z|y) P=[P(z|x)]n×l=[P(y|x)]n×m·[P(z|y)]m×l 定理3.1若随机变量X、Y、Z构成一个马尔可夫链,则有 (1) I(X; Z)≤I(Y; Z) (2) I(X; Z)≤I(X; Y) 证明(1) 因为变量X、Y、Z构成一个马尔可夫链,故对于一切x、y、z有P(z|x,y)=P(z|y),因此由命题3.5可知 I(XY; Z)=I(Y; Z) 而I(XY; Z)≥I(X; Z),故I(X; Z)≤I(Y; Z)。其中等号成立的充分必要条件是 P(z|x,y)=P(z|x) 这是因为I(X; Z)=I(Y; Z)I(XY; Z)=I(X; Z)。 (2) 因为X、Y、Z是马尔可夫链,可证Z、Y、X也是马尔可夫链,所以有P(x|y,z)=P(x|y)。对于所有x、y、z通过类似于命题3.5证明过程,可推得: ① I(ZY; X)≥I(Y; X),当且仅当P(x|y,z)=P(x|y)时,该式等号成立; ② I(ZY; X)≥I(Z; X),当且仅当P(x|y,z)=P(x|z)时,该式等号成立。 再由①与②得 I(ZY; X)=I(Y; X) I(Y; X)≥I(Z; X) 最后由平均互信息量的互易性可知 I(X; Y)≥I(X; Z) 并且当且仅当P(x|y,z)=P(x|y)=P(x|z)时等式成立。■ 定理3.1表明,通过串联信道的传输一般只会丢失更多信息。可是,当 P(x|y)=P(x|z)(3.38) 对所有x、y、z都成立,即串联信道的信道矩阵等于第一个信道的信道矩阵时,通过串联信道传输后不会增加信息的损失。当第二个信道是无损确定信道时,这个条件显然得到满足。如果第二个信道是数据处理系统,定理3.1表明,通过数据处理后,一般只会增加信息的损失,最多保持原来获得的信息,不可能比原来获得的信息有所增加。若要使数据处理后获得的平均互信息量保持不变,必须要使式(3.38)成立。总之,信息经数据处理具有不增性,称定理3.1为数据处理定理。 例3.9将两个二进制对称信道进行串联,如图3.19所示。已知第一个二进制对称信道的输入符号概率空间为 X P=01 1212 两个二进制对称信道的信道矩阵均为 P1=P2=1-pp p1-p 并且0p,所以有 H(p2)I(X; Z) 这表明二进制对称信道经串联后只会增加信息损失。 如果在两个二进制对称信道串联之后再串联一个同样的二进制对称信道,并设信道输出为W,那么新的等效信道的平均互信息量为 I(X; W)=1-H(p3) 其中错误概率为 p3=121-(1-2p)3 一般地,通过归纳法,可以证明,将k个同样的二进制对称信道进行串联,并设信道输出为Vk,那么串联后等效信道的平均互信息量为 I(X; Vk)=1-H(pk) 其中错误概率为 pk=121-(1-2p)k 图3.20给出了I(X; Vk)与p之间的关系曲线。显然,当串联级数增加时,信息的损失也增加,但损失的量逐渐减少。当k→∞时,pk→12,平均互信息量极限为 limk→∞I(X; Vk)=0 例3.10一个串联信道如图3.21所示,设X、Y、Z形成马尔可夫链,求串联信道的信道矩阵,并讨论是否有信息损失。 图3.20k个二进制对称信道串联的平均互信息量 图3.21一个串联信道 解由图3.20可知 PY|X=131313 12012,PZ|Y=100 02313 01323 因此 PZ|X=PY|X·PZ|Y=131313 121613 图3.22没有信息损失的串联信道 由于P(y|x)≠P(z|x),故经串联后信息有一定损失。但是,如果第一个信道的信道矩阵变为 PY|X=131313 01212 则有 PZ|X=PY|X 进而 I(X; Z)=I(X; Y) 这表明经串联后信息没有进一步损失。这个没有信息损失的串联信道如图3.22所示。■ 习题解答 3.1考虑某二进制通信系统。已知信源X是离散无记忆的,且只含有两个符号x0和x1,设这两个符号出现概率分别为P(x0)=1/4和P(x1)=3/4。信宿Y的符号集为{y0,y1}。已知信道转移概率为P(y0|x0)=910,P(y1|x0)=110,P(y0|x1)=15和P(y1|x1)=45。求: (1) H(Y); (2) I(X; Y); (3) H(Y|X)。 解(1) 容易计算 H(X)=-∑1i=0P(xi)logP(xi)=0.811(比特/符号) 由于 P(x0,y0)=P(x0)P(y0|x0)=0.225 P(x0,y1)=P(x0)P(y1|x0)=0.025 P(x1,y0)=P(x1)P(y0|x1)=0.15 P(x1,y1)=P(x1)P(y1|x1)=0.60 P(y0)=P(x0,y0)+P(x1,y0)=0.375 P(y1)=P(x0,y1)+P(x1,y1)=0.625 因此 H(Y)=-∑1i=0P(yi)logP(yi)=0.955(比特/符号) (2) 可计算 H(Y|X)=-∑i,jP(xi,yj)logP(yj|xi)=0.658(比特/符号) 因此 I(X; Y)=H(Y)-H(Y|X)=0.297(比特/符号) H(X,Y)=H(X)+H(Y|X)=1.468(比特/符号) (3) 由(1)和(2),得 H(X|Y)=H(X)-I(X; Y)=0.513(比特/符号) H(Y|X)=-∑i,jP(xi,yj)logP(yj|xi)=0.658(比特/符号)■ 3.2对某城市进行交通忙闲的调查,并把天气分成晴雨两种状态,气温分成冷暖两个状态。调查结果得到联合出现的相对频度如下: 忙晴冷12 暖8 雨冷27 暖16闲晴冷8 暖15 雨冷4 暖12 若把这些频度视为概率测度,试求从天气状态和气温状态获得的关于忙闲的信息量。 解记X: 忙闲; Y: 晴雨; Z: 冷暖 (1) 以频率取代概率,样本总数102天,其中忙为63天,闲为39天。因此 P(忙)=63102,P(闲)=39102 H(X)=-63102log63102-39102log39102=0.959(bit) (2) 天气状况和冷暖状态形成概率分布: P(yz) P(晴冷)=20102,P(晴暖)=23102,P(雨冷)=31102,P(雨暖)=28102 已知上述条件下的忙闲条件分布: P(x|yz) P(忙|晴冷)=1212+8=35,P(闲|晴冷)=25 P(忙|晴暖)=815+8=823,P(闲|晴暖)=1523 P(忙|雨冷)=2727+4=2731,P(闲|雨冷)=431 P(忙|雨暖)=1616+2=47,P(闲|雨暖)=37 因此从天气状态和气温状态获得的关于忙闲的信息量 H(X|YZ)=-∑xyzP(x,yz)logP(x|yz) =-∑xyzP(yz)P(x|yz)logP(x|yz) =0.84(bit)■ 图3.23习题3.3图 3.3设概率空间为X P=x1x2 0.60.4,信源通过一干扰信道,接收符号为Y=[y1,y2],信道传递概率如图3.23所示,求: (1) 信道疑义度H(X|Y)和噪声熵H(Y|X); (2) 接收到信息Y后获得的平均互信息量。 解(1) 信道疑义度 H(X|Y)=-∑2i=1∑2j=1P(xi)P(yk|xi)logP(xi|yj) 由图3.3得 P(y1|x1)=56,P(y2|x1)=16 P(y1|x2)=34,P(y2|x2)=14 因为 P(x1|y1)=P(x1)P(y1|x1)P(y1)=610×5645=58 P(x2|y1)=P(x2)P(y1|x2)P(y1)=410×3445=38 P(x1|y2)=P(x1)P(y2|x1)P(y2)=12 P(x2|y2)=P(x2)P(y2|x2)P(y2)=12 所以 H(X|Y)=-P(x1)P(y1|x1)logP(x1|y1)-P(x2)P(y1|x2)logP(x2|y1)- P(x1)P(y2|x1)logP(x1|y2)-P(x2)P(y2|x2)logP(x2|y2) =-610×56log58-410×34log38-610×16log12-410×14log12 ≈0.3390+0.4245+0.1+0.1 ≈0.9635(比特/符号) 噪声熵 H(Y|X)=-∑2i=1∑2j=1P(xi)P(yk|xi)logP(yj|xi) =-P(x1)P(y1|x1)logP(y1|x1)-P(x2)P(y1|x2)logP(y1|x2)- P(x1)P(y2|x1)logP(y2|x1)-P(x2)P(y2|x2)logP(y2|x2) =-610×56log56-410×34log34-610×16log16-410×14log14 ≈0.1315+0.2585+0.1245+0.2 ≈0.7145(比特/符号) (2) 接收到消息Y后获得的平均互信息量I(X; Y)为 I(X; Y)=∑2i=1∑2j=1P(xi)P(yj|xi)logP(xi|yj)P(xi) =H(X)-H(X|Y) =H(Y)-H(Y|X) =∑2i=1∑2j=1P(xi)P(yj|xi)I(xi; yj) ≈0.0075(比特/符号)■ 3.4设8个等概率分布的消息通过传递概率为p的二进制对称信道进行传送。8个消息相应编成下述码字: M1=0000,M2=0101,M3=0110,M4=0011 M5=1001,M6=1010,M7=1100,M8=1111 试问: (1) 接收到第一个数字0与M1之间的互信息量是多少? (2) 接收到第二个数字也是0时,得到多少关于M1的附加互信息量? (3) 接收到第三个数字仍是0时,又增加多少关于M1的互信息量? (4) 接收到第四个数字还是0时,再增加了多少关于M1的互信息量? (5) 接收到全部四个数字0000后,获得多少关于M1的互信息量? 解信源 M: M1M2M3M4M5M6M7M8 P(Mi): 1818181818181818 对应码字: 00000101011000111001101011001111 信道为二元对称无记忆信道,如图3.24所示。信道传递矩阵为 p-p pp-,p-+p=1 消息Mi与码字一一对应,所以设 Mi=(xi1xi2xi3xi4),xi1,xi2,xi3,xi4∈{0,1},i=1,2,…,8 又设接收序列为 Y=(y1y2y3y4),y1,y2,y3,y4∈{0,1} 图3.24习题3.4图 (1) 接收到第一个数字为0,即y1=0。那么,接收到第一个数字0与M1之间的互信息量为 I(M1; y1=0)=logP(y1=0|M1)P(y1=0) 因为信道是无记忆信道,所以 P(y1=0|M1)=P(y1=0|x11x12x13x14=0000) =P(y1=0|x11=0)=P(0|0)=p- 同理,得 P(y1=0|Mi)=P(y1=0|xi1xi2xi3xi4)=P(y1=0|xi1) xi1xi2xi3xi4∈{0,1},i=1,2,…,8 输出第一个符号y1=0时,有可能是8个消息中任意一个第一个数字传送来的。所以 P(y1=0)=∑8i=1P(Mi)P(y1=0|Mi) =18[P(y1=0|x11=0)+P(y1=0|x21=0)+P(y1=0|x31=0)+ P(y1=0|x41=0)+P(y1=0|x51=1)+P(y1=0|x61=1)+ P(y1=0|x71=1)+P(y1=0|x81=1)] =18[4P(0|0)+4P(0|1)] =18[4(p-+p)]=12 故得 I(M1; y1=0)=1+log2p-(bit) (2) 接收到第二个数字也是0时(y2=0),得到关于M1的附加互信息量为 I(M1; y2=0|y1=0)=I(M1; y1y2=00)-I(M1; y1=0) 其中, I(M1; y1y2=00)=logP(y1y2=00|M1)P(y1y2=00) 同理,因为信道是无记忆信道,所以 P(y1y2=00|Mi)=P(y1y2=00|xi1xi2xi3xi4) =P(y1y2=00|xi1xi2) =P(y1=0|xi1)P(y2=0|xi2) xi1,xi2,xi3,xi4∈{0,1},i=1,2,…,8 得 P(y1y2=00|M1)=P(y1=0|x11=0)P(y2=0|x12=0) =P(0|0)P(0|0)=p-2 输出端出现第一个符号和第二个符号都为0(y1=0,y2=0)的概率为 P(y1y2=00)=∑8i=1P(Mi)P(y1y2=00|Mi) =18[P(y1=0|x11=0)P(y2=0|x12=0)+ P(y1=0|x21=0)P(y2=0|x22=1)+ P(y1=0|x31=0)P(y2=0|x32=1)+ P(y1=0|x41=0)P(y2=0|x42=0)+ P(y1=0|x51=1)P(y2=0|x52=0)+ P(y1=0|x61=1)P(y2=0|x62=0)+ P(y1=0|x71=1)P(y2=0|x72=1)+ P(y1=0|x81=1)P(y2=0|x12=1)] 即 P(y1y2=00)=18[P(0|0)P(0|0)+P(0|0)P(0|1)+ P(0|0)P(0|1)+P(0|0)P(0|0)+ P(0|1)P(0|0)+P(0|1)P(0|0)+ P(0|1)P(0|1)+P(0|1)P(0|1)] =182p-2+4p-p+2p2 =14p-2+2p-p+p2 =14(p-+p)2 =14 所以 I(M1; y1y2=00)=logp-214=2(1+log2p-)(bit) 得附加互信息量为 I(M1; y2=0|y1=0)=1+log2p-(bit) (3) 接收到第三个数字仍是0(y3=0)时关于M1的互信息又增加为 I(M1; y3=0|y1y2=00)=I(M1; y1y2y3=000)-I(M1; y1y2=00) 其中, I(M1; y1y2y3=000)=logP(y1y2y3=000|M1)P(y1y2y3=000) 同理,得 P(y1y2y3=000|Mi) =P(y1y2y3=000|xi1xi2xi3xi4) =P(y1y2y3=000|xi1xi2xi3) =P(y1=0|xi1)P(y2=0|xi2)P(y3=0|xi3)xi1,xi2,xi3,xi4∈{0,1},i=1,2,…,8 得 P(y1y2y3=000|M1)=P(0|0)P(0|0)P(0|0)=p-3 输出端出现三个符号都为0(y1y2y3=000)的概率为 P(y1y2y3=000)=∑8i=1P(Mi)P(y1y2y3=000|Mi) =18[p-3+p-2p+p-p2+p-2p+p-2p+p-p2+p-p2+p3] =18[p-3+3p-2p+3p-p2+p3] =18(p-+p)3=18 所以 I(M1; y1y2y3=000)=3(1+log2p-)(bit) 而又增加的互信息量为 I(M1; y3=0|y1y2=00)=1+log2p-(bit) (4) 接收到第四数字还是0时(即y1y2y3y4=0000)再增加了关于M1的互信息为 I(M1; y4=0|y1y2y3=000) =I(M1; y1y2y3y4=0000)-I(M1; y1y2y3=000) 同理,有 P(y1y2y3y4=0000|Mi) =P(y1=0|xi1)P(y2=0|xi2)P(y3=0|xi3)P(y4=0|xi4) xi1,xi2,xi3,xi4∈{0,1},i=1,2,…,8 P(y1y2y3y4=0000)=∑8i=1P(Mi)P(y1y2y3y4=0000|Mi) =18[p-4+6p-2p2+p4] 所以 I(M1; y1y2y3y4=0000)=logP(y1y2y3y4=0000|M1)P(y1y2y3y4=0000) =logp-418[p-4+6p-2p2+p4] =3+4log2p--log2(p-4+6p-2p2+p4)(bit) 所以又增加了关于M1的互信息量为 I(M1; y4=0|y1y2y3y4=0000)=log2p--log2(p-4+6p-2p2+p4)(bit) (5) 接到全部四个数字0000后获得关于M1的互信息量为 I(M1; y1y2y3y4=0000)=3+4log2p--log2(p-4+6p-2p2+p4)(bit)■ 3.5设有一批电阻,按阻值分,70%是2kΩ,30%是5kΩ; 按功耗分,64%是1/8W,其余是1/4W。现已知2kΩ阻值的电阻中80%是1/8W。问通过测量阻值可以平均得到的关于瓦数的信息量是多少? 解根据题意,设电阻的阻值为事件X,电阻的功率为事件Y。事件X、事件Y的信源概率空间分别为 X P(x)=x1=2kΩx2=5kΩ 0.70.3,Y P(y)=y1=1/8Wy2=1/4W 0.640.36 并已知P(y1|x1)=0.8,所以P(y2|x1)=1-P(y1|x1)=0.2。 首先计算出P(y1|x2)和P(y2|x2),根据概率关系,它们满足 P(y1)=P(x1)P(y1|x1)+P(x2)P(y1|x2) P(y2)=P(x1)P(y2|x1)+P(x2)P(y2|x2) P(y1|x2)+P(y2|x2)=1 所以 0.64=0.7×0.8+0.3P(y1|x2) 0.36=0.7×0.2+0.3P(y2|x2) P(y1|x2)+P(y2|x2)=1 整理得P(y1|x2)=830≈0.26 P(y2|x2)=2230≈0.73 上面两值表示5kΩ阻值的电阻中约73%功率为1/4W,而26%是1/8W。通过测量电阻阻值可以得到关于瓦数的平均信息量就是平均互信息量I(X; Y),所以 I(X; Y)=∑2i=1∑2j=1P(xi)P(yj|xi)logP(yj|xi)P(yj) =[p(x1)P(y1|x1)logP(y1|x1)P(y1)+p(x1)P(y2|x1)logP(y2|x1)P(y2)+ p(x2)P(y1|x2)logP(y1|x2)P(y1)+p(x2)P(y2|x2)logP(y2|x2)P(y2)] =0.7×0.8log0.80.64+0.7×0.2log0.20.36+0.3×0.26log0.260.64+ 0.3×0.73log0.730.36 ≈0.180-0.119-0.101+0.226 =0.186(bit)■ 3.6若三个离散随机变量,有如下关系: X+Y=Z,其中X和Y相互统计独立。试证明: (1) I(X; Z)=H(Z)-H(Y); (2) I(XY; Z)=H(Z); (3) I(X; YZ)=H(X); (4) I(Y; Z|X)=H(Y); (5) I(X; Y|Z)=H(X|Z)=H(Y|Z)。 证明离散随机变量Z=X+Y,X和Y统计独立,如图3.25所示。 图3.25习题3.6图 设x∈X,y∈Y,z∈Z,满足z=x+y,因为 Pz(z)=∑YP(y,z)=∑YP(y,z=x+y)=∑YP(y,x=z-y) 且X和Y统计独立,所以 Pz(z)=∑YP(y)P(x),z=x+y(3.39) 同理 Pz(z)=∑XP(x,z)=∑XP(x,z=x+y)=∑XP(x,x=z-y) 因为X和Y统计独立,所以 Pz(z)=∑XP(x)P(y),z=x+y(3.40) 又因为Pz(z)=∑YP(z|y)P(y),与式(3.39)比较可得 P(z|y)=P(x),z=x+y 0,z≠x+y(3.41) 同理得 P(z|x)=P(y),z=x+y 0,z≠x+y(3.42) 因为要满足z=x+y,所以 P(z|xy)=1,z=x+y 0,z≠x+y(3.43) P(y|xz)=1,z=x+y 0,z≠x+y(3.44) P(x|yz)=1,z=x+y 0,z≠x+y(3.45) (1) 因为 H(Z|X)=-∑Z∑XP(x)P(z|x)logP(z|x) 由式(3.42)得 H(Z|X)=-∑Z∑XP(x)P(z|x)logP(z|x) =-∑Z=X+Y∑XP(x)P(y)logP(y) =-∑Y∑XP(x)P(y)logP(y) =-∑YP(y)logP(y)=H(Y) 所以 I(X; Z)=H(Z)-H(Z|X) =H(Z)-H(Y) (2) I(XY; Z)=H(Z)-H(Z|XY) 根据式(3.43)可得 H(Z|XY)=0 所以 I(XY; Z)=H(Z) (3) 根据式(3.45)可得 H(X|YZ)=0 所以 I(X; YZ)=H(X)-H(X|YZ)=H(X) (4)I(Y; Z|X)=H(Y|X)-H(Y|XZ) 根据式(3.44)可得H(Y|XZ)=0,又因X和Y统计独立,所以 H(Y|X)=H(Y) I(Y; Z|X)=H(Y) (5) I(X; Y|Z)=H(X|Z)-H(X|ZY)=H(X|Z) 因为 H(X|ZY)=0 I(X; Y|Z)=H(Y|Z)-H(Y|XZ)=H(Y|Z) H(Y|XZ)=0 所以 I(X; Y|Z)=H(X|Z)=H(Y|Z)■ 3.7设X和Y是两个相互统计独立的二元随机变量,其取0或1的概率为等概率分布。定义另一个二元随机变量Z,而且Z=X·Y(一般乘积)。试计算: (1) I(X; Y),I(X; Z),I(Y; Z); (2) I(X; Y|Z),I(Y; X|Z),I(Z; X|Y),I(Z; Y|X); (3) I(XY; Z),I(X; YZ),I(Y; XZ)。 解X和Y是两个相互统计独立的二元随机变量,其概率空间分别为 X P(x)=x=0x=1 1212,Y P(y)=y=0y=1 1212 因为Z=X·Y(一般乘积),所以Z的概率空间为 Z=XY P(z)=z=0z=1 3414 X、Y与Z之间关系相当的信道如图3.26所示,其信道矩阵为 P=10 10 10 01 即 P(z|xy)=1,z=xy 0,z≠xy 图3.26X、Y与Z之间关系相当的信道 由上面XY→Z的信道,可得相当于X→Z,Y→Z的信道如图3.27和图3.28所示。信道矩阵为 P′=10 1212,P″=10 1212 图3.27P(z|x) 图3.28P(z|y) 因为P(z)=∑XP(x)P(z|x),而P(x)和P(z)已知,所以也可以由此式求出P(z|x),同理求出P(y|z)。 又可由 P(x|z)=P(x)P(z|x)P(z),x∈X,z∈Z=XY P(y|z)=P(y)P(z|y)P(z),y∈Y,z∈Z=XY 求得 P(x=0|z=0)=23 P(x=0|z=1)=0 P(x=1|z=0)=13 P(x=1|z=1)=1P(y=0|z=0)=23 P(y=0|z=1)=0 P(y=1|z=0)=13 P(y=1|z=1)=1 又有 P(y|xz)=P(xyz)P(xz)=P(xy)P(z|xy)P(x)P(z|x) 因为X和Y统计独立,所以 P(y|xz)=P(y)P(z|xy)P(z|x),x∈X,y∈Y,z∈Z=XY 同理有 P(x|yz)=P(x)P(z|xy)P(z|y),x∈X,y∈Y,z∈Z=XY 可求得 P(y=0|x=0z=0)=12 P(y=1|x=0z=0)=12 P(y=0|x=1z=0)=1 P(y=1|x=1z=1)=1 P(y|xz)=0z≠xyP(x=0|y=0z=0)=12 P(x=1|y=0z=0)=12 P(x=0|y=1z=0)=1 P(x=1|y=1z=1)=1 P(x|yz)=0z≠xy (1) H(X)=H12=1(比特/符号) H(Y)=1(比特/符号) H(Z)=H34,14≈0.811(比特/符号) 因为X和Y统计独立,所以 H(X|Y)=H(X)=1(比特/符号) H(X|Z)=-∑X∑Z=XYP(x)P(z|x)P(x|z) =-12×1log23-12×0log0-12×12log13-12×12log1 =34log3-12≈0.689(比特/符号) 同理 H(Y|Z)≈0.689(比特/符号) H(Z|X)=0.5(比特/符号) H(Z|Y)=0.5(比特/符号) 因为X和Y统计独立,则 I(X; Y)=H(X)-H(X|Y)=H(X)-H(X)=0 I(X; Z)=H(Z)-H(Z|X)=H(X)-H(X|Z)≈0.311(比特/符号) I(Y; Z)=H(Z)-H(Z|Y)=H(Y)-H(Y|Z)≈0.311(比特/符号) (2) 因为 P(z|xy)=0,z≠xy 1,z=xy 所以 H(Z|XY)=0 H(X|YZ)=-∑X∑Y∑Z=XYP(xyz)logP(x|yz) =-∑X∑Y∑Z=XYP(xy)P(z|xy)logP(x|yz) =-14×1log12-14×1log12-14×1log1-14×1log1 =0.5(比特/符号) 同理 H(Y|XZ)=0.5(比特/符号) I(X; Y|Z)=H(X|Z)-H(X|YZ)=H(Y|Z)-H(Y|XZ) ≈0.189(比特/符号) 又因为互信息的交互性 I(Y; X|Z)=I(X; Y|Z) I(Z; X|Y)=H(Z|Y)-H(Z|XY)=H(Z|Y)=0.5(比特/符号) I(Z; Y|X)=H(Z|X)-H(Z|XY)=H(Z|X)=0.5(比特/符号) (3) I(XY; Z)=H(Z)-H(Z|XY)=H(Z)≈0.811(比特/符号) I(X; YZ)=H(X)-H(X|YZ)=0.5(比特/符号) I(Y; XZ)=H(Y)-H(Y|XZ)=0.5(比特/符号)■ 图3.29习题3.8图 3.8有一个二元对称信道,其信道矩阵如图3.29所示。设该信道以1500个二元符号/秒的速度传输输入符号。现有一消息序列共有14000个二元符号,并设在这消息中P(0)=P(1)=12。问从信息传输的角度来考虑,10秒内能否将这消息序列无失真地传送完。 解消息是一个二元序列,这个二元符号是等概率分布,即P(0)=P(1)=12,所以消息信源的熵H(X)=1(比特/符号),即每个二元符号含有1比特信息量。那么这消息序列含有信息量=14000符号×1(比特/符号)=1.4×104(bit)。 现计算这个二元对称信道的最大信息传输速率。此信道是二元对称信道,信道传递矩阵为 P=0.980.02 0.020.98 所以其信道容量(最大信息传输率)为 C=1-H(p)=1-H(0.98)≈0.8586(比特/符号) 得最大信息传输速率为 Rt≈1500×0.8586≈1287.9≈1.288×103(bps) 图3.30习题3.9图 此信道10s内能无失真传输的最大信息量为 10×Rt≈1.288×104(bit) 可见,此信道10s内能无失真传输的最大信息量小于这消息序列所含有(携带)的信息量,所以从信道传输的角度来考虑,不可能在10s内将这消息无失真地传送完。■ 3.9设一个有扰离散信道的传输情况如图3.30所示,试求出这种信道的信道容量。 解信道传输矩阵如下 PY|X=121200 012120 001212 120012 可以看出这是一个对称信道,m=4,那么信道容量为 C=logm-H12,12,0,0 =logm+∑mj=1p(yj|xi)logp(yj|xi) =log24+2×12log212 =log24+log212 =1(bit)■ 3.10求图3.31中信道的信道容量及其最佳的输入概率分布。 图3.31习题3.10图 解(1) 信道传递矩阵为 PY|X=13161316 16131613 m=4,属于对称信道 C=log24+2×13log213+2×16log216 =0.0816(bit) (2) 信道传递矩阵为 PY|X=121316 161213 131612 m=3,属于对称信道 C=logm-H12,13,16 =log23+12log212+13log213+16log216 =0.126(bit)■ 图3.32习题3.11图 3.11若有一离散信道,其信道转移概率如图3.32所示,试求其信道容量。 解由信道转移概率矩阵 P=1-ε1-ε2ε2ε1 ε21-ε1-ε2ε1 可知此信道为准对称信道。 因此,当p0=p1=12时达到信道容量 输出端分布为 q0=12(1-ε1-ε2)+12ε2=12(1-ε1) q1=12ε2+12(1-ε1-ε2)=12(1-ε1) qε=12ε1×2=ε1 所以 C=maxI(X; Y) =max[H(Y)-H(Y|X)] =[-q0logq0-q1logq1-qεlogqε]+ (1-ε1-ε2)log(1-ε1-ε2)+ε1logε1+ε2logε2 =-(1-ε1)log12(1-ε1)+ε2logε2+(1-ε1-ε2)log(1-ε1-ε2)■ 3.12一个离散信道,其信道转移概率矩阵为 P=1-p-εp-ε2ε p-ε1-p-ε2ε 试求信道容量值C。 解由信道转移概率矩阵 P=1-p-εp-ε2ε p-ε1-p-ε2ε 可知此信道为准对称信道,当信道输入为等概率分布时达到信道容量。 所以 C=maxI(X; Y)=max[H(Y)-H(Y|X)] =-2×12-εlog12-ε-2εlog2ε+ 12×2[(1-p-ε)log(1-p-ε)+(p-ε)log(p-ε)+2εlog2ε] =(2ε-1)log12-ε+(1-p-ε)log(1-p-ε)+(p-ε)log(p-ε)■ 图3.33习题3.13图 3.13一个离散信道,其信道转移概率分布如图3.33所示。 试求: (1) 达到信道容量C时输入概率分布{P(x)}; (2) 信道容量值C。 解(1) 信道转移概率矩阵为 1-εε0 010 0ε1-ε 则信道输出端分布为 q0=p0(1-ε) q1=p0ε+p1+(1-p0-p1)ε=p1+(1-p1)ε q2=(1-ε)(1-p0-p1) 由信道容量定义知 C=maxI(X; Y)=max[H(Y)-H(Y|X)] =max[H(q0,q1,q2)-p0H(ε,1-ε)-(1-p0-p1)H(ε,1-ε)] =max{p(x)}[H(q0,q1,q2)-(1-p1)H(ε,1-ε)] 令Cp0=0,则有 -(1-ε)[logp0(1-ε)-log(1-p0-p1)(1-ε)]=0 所以 2p0=1-p1 令Cp1=0,则有 -(1-ε){log[p1+(1-p1)ε]-log(1-p0-p1)(1-ε)}+H(ε)=0 所以 logp1+(1-p1)ε(1-p0-p1)(1-ε)=H(ε,1-ε)1-ε 由联立方程组解得 p0=1(1-ε)2+2H(ε)1-ε p1=(1-ε)2H(ε)1-ε-2ε(1-ε)2+2H(ε)1-ε p2=1(1-ε)2+2H(ε)1-ε 令 2+2H(ε)1-ε=A 则 q0=1A q1=A-2A q2=1A (2) 信道容量为 C=H(q0,q1,q2)-(1-p1)H(ε,1-ε) =-2Alog1A-A-2AlogA-2A-2(1-ε)AH(ε,1-ε)■ 3.14若已知信道输入分布为等概率分布,且有下列两个信道,其转移概率为 P1=121200 012120 001212 120012,P2=1212000000 0012120000 0000121200 0000001212 试求这两个信道的信道容量,并判断这两个信道是否有噪声。 解(1) 由信道1的转移概率矩阵可知其为对称信道,所以 C1=log4-H12,12=1(bit) 因为 H(X)=log24=2>C1 所以有信息熵损失,信道有噪声。 (2) 由信道2的转移概率矩阵可知其为准对称信道,输入为等概分布时达到信道容量。令此时的输出分布为 q1=q2=…=q8=18 所以 C2=H(Y)-H(Y|X) =log8-H12,12 =2 因为 H(X)=log4=C2 所以信道2无噪声。■ 图3.34习题3.15图 3.15若有一个离散Z形信道,其信道转移概率如图3.34所示。 试求: (1) 信道容量; (2) 若将两个同样Z形信道串接,求串接后的信道转移概率; (3) 求串接后的信道容量。 解(1) 设信源输出0、1的先验概率分别为p0、p1,且p0=1-p1,则由该信道转移概率可知: q0=p0+p1·ε=1-p1(1-ε) q1=p1(1-ε) I(X; Y)=H(Y)-H(Y|X)=H(q0,q1)+∑i∑jpipjilogpji =-q0logq0-(1-q0)log(1-q0)-p1H(ε) 注: H(ε)=-[εlogε+(1-ε)log(1-ε)] 由定义 C1=max{p(x)}I(X; Y) 令 dI(X; Y)dp1=0 即 -dq0dp1logq0-dq0dp1-dq1dp1logq1-dq1dp1-H(ε)=0 (1-ε)logq0q1=H(ε) q0q1=2H(ε)1-ε 令2H(ε)1-ε=A,H(ε)1-ε=logA,则有q01-q0=A。 当q0=AA+1时达到信道容量。 所以 C1=-AA+1logAA+1-1A+1log1A+1-1A+1logA =-AA+1+1A+1logAA+1=logAA+1=log1+2H(ε)1-ε =log1+(1-ε)εε1-ε (2) 若将Z信道串接,则信道转移概率矩阵为 10 ε1-ε10 ε1-ε=10 2ε-ε2(1-ε)2 (3) 串接后的信道转移概率矩阵 p=10 2ε-ε2(1-ε)2 令2ε-ε2=η,则p=10 η1-η 由(1)的结论可知,信道容量为 C2=log1+2H(η)1-η=log1+(1-η)ηη1-η =log1+(1-ε)2(2ε-ε2)2ε-ε2(1-ε)2■ 图3.35习题3.16图 3.16若有一离散准对称信道,其信道转移概率如图3.35所示。试求: (1) 信道容量C; (2) 若将两个同样上述准对称信道串接,能否构成一个新的信道?为什么? 解(1) 信道转移概率矩阵为 13131616 16131613 当准对称信道输入端等概率分布时才达到信道容量值。 所以 p0=p1=12q0=14,q1=13,q2=16,q3=14 C=max{p(x)}I(X; Y)=max[H(Y)-H(Y|X)]=-24log14-13log13-16log16+ 12×22×13log13+2×16log16=0.041(bit) (2) 显然无法串接上述信道,原因是信道输出端符号数比信道输入端多。■ 图3.36习题3.17图 3.17设有一离散级联信道如图3.36所示。试求: (1) X与Y间的信道容量; (2) Y与Z间的信道容量; (3) X与Z间的信道容量及其输入分布{P(x)}。 解(1) X、Y间信道为强对称信道,所以 C1=1-H(ε) (2) Y、Z间信道为准对称信道,信道容量为 C2=H38,38,14+2·1234log34+14log14=1.56-0.81=1.75(bit) (3) X、Z间信道转移概率矩阵为 1-εε ε1-ε·34014 03414=34(1-ε)34ε14 34ε34(1-ε)14 它也属于准对称信道。当p0=p1=12时达到信道容量。所以q0=38,q1=38,q2=14,信道容量为 C3=H38,38,14+34(1-ε)log34(1-ε)+34εlog34ε+14log14 =1.06+34(1-ε)log34(1-ε)+34εlog34ε(bit)■ 3.18若已知两信道的信道转移概率为 P1=131313 01212,P2=100 02313 01323 试问: 两信道串联的信道转移概率是多少?其信道容量是否发生变化? 解两信道串联后的信道转移概率为 P=131313 01212100 02313 01323=131313 01212 因为P不变,所以信道容量不变。