第3章〓信道与容量

广义地讲，信道是信息传输或存储的通道，是通信系统最重要的组成部分。我们研究信道的目的在于研究信道中能传输的最大信息量，即信道容量。

在一个典型的通信系统中，信源发出携带着一定信息量的消息，并转换成适于在信道中传输的信号，然后通过信道传送到收端。信道在传送信号的同时，会引入各种干扰和随机噪声，使得信号产生失真，从而导致接收错误。由于存在干扰和噪声，因此信道的输入与输出信号之间是一种统计依赖关系，而不再是确定的函数关系。只要知道了信道的输入信号、输出信号的特性，以及它们之间的统计依赖关系，就可以确定信道的全部特性。

实际的通信系统有很多种，如卫星通信系统、公用电话网、微波通信系统、光纤通信系统等，相应的信道形态也是多种多样的，它是一种物理传输媒介，在空间或时间上把信息从一端传输到另一端。电缆、光纤、无线电波、声波、磁带、光盘都可以构成信道，信息论的研究将不细致考虑这些具体介质的物理现象、特性和规律，而是从信息传输的角度对其进行抽象，建立与各种通信系统相适应的数学模型，研究信息经过这些模型的普遍规律，指导通信系统的优化设计。一般性而言，信道可以看成一个概率转换器，我们不关心这个转换器内部的过程，仅考虑其输入、输出及其相互关系。因此，根据输入和输出信号的形式、信道的统计特性及信道用户数等方面来对信道进行分类。

根据输入、输出信号的时间特性和取值特性分类：

(1) 离散信道： 输入、输出信号在取值和时间上均为离散的信道，该信道上的信号可以离散型随机变量或随机矢量描述。

(2) 连续信道： 输入、输出信号取值均为连续的信道，该信道上的信号可以连续型随机变量或随机矢量描述。

(3) 半离散信道(或半连续信道)： 输入与输出中一个为离散型随机变量而另一个为连续型随机变量的信道。

(4) 波形信道： 输入和输出是时间上连续的随机信号{x(t)}与{y(t)}，即信道输入和输出随机变量取值均为连续，且随时间连续变化，因此可用随机过程来描述。

根据信道的统计特性分类： 

(1) 恒参信道： 信道的统计特性不随时间而变化，如卫星信道一般可视作恒参信道。

(2) 随参信道： 信道的统计特性随时间而变化，如短波信道即是一种典型的随参信道。

根据信道用户的数量分类： 

(1) 单用户信道： 只有一个输入端和一个输出端的单向通信的信道。

(2) 多用户信道： 在输入端或输出端中至少有一端有两个以上的用户，并且可以双向通信的信道。目前实际的通信信道绝大多数是多端信道。多端信道又可分为多元接入信道与广播信道。

根据信道的记忆特性分类： 

(1) 无记忆信道： 输出仅与当前的输入有关，而与过去的输入和输出无关。

(2) 有记忆信道： 输出不仅与当前输入有关，而且与过去的输入和输出有关。

本章首先讨论信道的分类及信道的数学模型，然后按照离散信道、连续信道、波形信道的次序定量研究信道传输的平均互信息及其重要性质，导出信道容量概念及计算方法，进一步推导并分析香农公式。






3．1信道模型

信道的数学模型要描述清楚三个要素： 信道的输入/输出统计特性以及输入与输出之间的转换关系。考虑到信息传输的随机性，可用概率函数描述各要素的特性。离散信道的数学模型如图3．1．1所示。



图3．1．1离散信道的数学模型


考虑到一般性，图中输入与输出信号均用随机矢量表示，输入X=(X1，X2，…，XN)，输出Y=(Y1，Y2，…，YN)，X或Y中每个随机变量Xi或Yj的取值xi与yj分别取自于输入、输出符号集A=(a1,a2,…,ar),B=(b1,b2,…,bs)。由于噪声或干扰的存在，信道输入与输出之间没有确定的函数关系，而是一种统计依赖关系，用条件概率P(y|x)反映，信道噪声与干扰的影响也包含在其中。同时，离散信道的数学模型可表示为
{X，P(y|x)，Y}
根据信道的统计特性(即条件概率)的不同，离散信道又可分成如下三种情况。

（1） 无干扰(无噪)信道： 信道中没有随机性的干扰，输出信号Y与输入信号X之间有确定的对应关系，即y=f(x)，故条件概率P(y|x)满足
P(y|x)=1,y=f(x)0,y≠f(x)（3.1.1）
（2） 有干扰无记忆信道： 这种信道存在干扰，为实际中常见的信道类型，其输出符号与输入符号之间不存在确定的对应关系，且其条件概率不再具有式（3.1.1）的形式，但信道任一时刻的输出符号仅依赖同一时刻的输入符号，是无记忆信道。利用概率关系转换的方法可以证明无记忆信道的条件概率满足
P(y|x)=P(y1y2…yN|x1x2…xN)=∏Ni=1P(yi|xi)（3.1.2）
（3） 有干扰有记忆信道： 这是更一般的情况，这种信道某一时刻的输出不仅与当时的输入有关，还与其他时刻的输入及输出有关，其条件概率不再满足式（3.1.2），对它的分析也更复杂。

如果信道的输入与输出均是单个符号，那么可以用随机变量X和Y分别表示而不是矢量形式，这称为单符号信道。其中输入随机变量X的字符集为{a1,a2,…,ar}，输出随机变量Y的字符集为{b1,b2,…,bs}，信道输入与输出之间的转换关系可用条件概率P(y=bj|x=ai)描述，该条件概率称为信道转移概率或传递概率，则该信道的统计特性可由下面的矩阵描述： 
P=P(b1|a1)P(b2|a1)…P(bs|a1)P(b1|a2)P(b2|a2)…P(bs|a2)︙︙︙P(b1|ar)P(b2|ar)…P(bs|ar)r×s
该矩阵称为信道矩阵(或信道转移矩阵)，该矩阵每一行元素之和等于1，即
∑sj=1P(bj|ai)=1
其物理意义是发出输入符号X=ai后收到的一定是输出字符集合中的某一个。

下面通过例子介绍两种重要的单符号离散信道。

例3．1．1二元对称信道(Binary Symmetric Channel，BSC)。

这是很重要的一种信道，其输入与输出符号均取值于{0,1}。记a1=b1=0,a2=b2=1，则转移概率为
P(b1|a1)=1-pP(b2|a2)=1-pP(b1|a2)=pP(b2|a1)=p
可得BSC的信道转移矩阵为
P=1-ppp1-p
二元对称信道也可用图3．1．2表示。



图3．1．2二元对称信道


不难得出，该信道的误码率为
Pe=P(a2)P(b1|a2)+P(a1)P(b2|a1)=p
若采用纠错编码技术，则将可有效地降低信道误码率。

例3．1．2二元删除信道(Binary Eraser Channel,BEC)。

它的输入X取值于{0,1}，输出Y取值于{0,1,2}，且信道转移矩阵为
P=p1-p001-qq
二元删除信道也可如图3．1．3表示。



图3．1．3二元删除信道

这种信道在下述情况下存在： 当信号波形传输中失真较大时，在接收端不是对接收信号硬性判为0或1，而是根据最佳接收机额外给出的信道失真信息增加一个中间状态2(称为删除符号)，采用特定的纠删编码，可有效地恢复出这个中间状态的正确取值。






















3．2平均互信息

3．2．1信道疑义度

以图3．2．1所示的单符号离散无记忆信道(Discrete Memoryless Channel，DMC)为基本信道。



图3．2．1基本信道


信道输入即信源X的熵为
H(X)=-∑qi=1P(ai)logP(ai)=-∑XP(x)logP(x)
它表示了信源X中各符号的平均不确定性，即输入的先验不确定性，故可称为先验熵。

信源X发出一个符号ai后，通过信道到达收方，设Y接收到的符号为bj。若信道中没有干扰，则信道的输入与输出符号一一对应，信源发出的信息量全部被接收端收到，也即关于信道输入的先验不确定性全部消除。

当信道中存在干扰时，信道输入、输出符号间的关系是统计依赖关系，收方收到y=bj后关于信道输入x=ai的后验概率为P(ai |bj)，此时关于输入ai的不确定性应为-log P(ai |bj)，将-log P(ai |bj)对所有输入符号求统计平均，可得
H(X|bj)=-∑ri=1P(ai|bj)logP(ai|bj)-∑XP(x|bj)logP(x|bj)
它表示接收到输出符号为bj后关于输入X的后验熵，以及收到bj后关于各输入符号的平均不确定性。

再将H(X| bj)对所有输出符号求统计平均，可得
H(X|Y)=∑sj=1P(bj)H(X|bj)
=-∑ri=1∑sj=1P(bj)P(ai|bj)logP(ai|bj)
=-∑ri=1∑sj=1P(aibj)logP(ai|bj)
-∑X∑YP(xy)logP(x|y)
定义3．2．1设离散信道的输入、输出分别为X和Y，信道后验概率为P(ai |bj)（i=1，2，…，r； j=1，2，…，s），定义条件熵H(X|Y)为该信道的信道疑义度。

信道疑义度H(X|Y)反映了收到输出Y的全部符号后关于发出X各符号的平均不确定性，这个对X尚存的不确定性是信道干扰引起的。

若信道输入、输出是一一对应的，则接收到输出Y后对X的不确定性将完全消除，即有H(X|Y)=0。干扰情况下一般H(X|Y)>0，说明信源符号经过有干扰信道传输后总要残留一部分不确定性，这是由于传输过程中部分信息损失在信道中，因此信道疑义度又称为损失熵。由熵的性质可知，条件熵是不大于无条件熵的，即H(X|Y)≤H(X)总成立，这说明接收端收到信道传送来的符号Y后得到了一些关于X的信息量，使得传输过程结束后总能消除一些关于输入X的不确定性，从而获得了一些信息(只有在Y与X独立时，才有H(X|Y)=H(X))，为此引出了收发双方的平均互信息概念。




















3．2．2平均互信息及其性质

根据上述讨论可知，H(X)代表接收到输出符号以前关于信源X的先验不确定性，而H(X|Y)代表接收到输出符号后残存的关于X的不确定性，两者之差即为传输过程获得的信息量。

定义3．2．2令
I(X; Y)=H(X)-H(X|Y)(3.2.1)
定义I(X; Y)为信道输入X与输出Y之间的平均互信息。

平均互信息I(X; Y)代表了接收到每个输出符号Y后获得的关于X的平均信息量，单位为比特/符号。

根据I(X; Y)的定义式可得
I(X; Y)=∑XP(x)log1P(x)-∑XYP(xy)log1P(x|y)
=∑XYP(xy)log1P(x)-∑XYP(xy)log1P(x|y)
=∑XYP(xy)logp(x|y)P(x)（3.2.2）
I(X; Y)=∑XYP(xy)logP(xy)P(x)p(y)（3.2.3）
I(X; Y)=∑XYP(xy)logP(y|x)P(y)（3.2.4）
接收端收到某消息y后，关于输入为x的信息量记为x与y之间的互信息I(x; y)，且
I(x; y)=log1P(x)-log1P(x|y)=logP(x|y)P(x)(3.2.5)
将式（3.2.5）与式（3.2.2）对比可知，对互信息I(x; y)求统计平均后正是平均互信息I(X; Y)，两者分别代表了互信息的局部和整体含义，在本质上是统一的。

互信息I(x; y)的取值可能为正，也可能为负。但是，后面将看到平均互信息I(X; Y)的值不可能为负。

从平均互信息I(X; Y)的定义中可以进一步理解熵只是对不确定性的描述，而不确定性的消除才是接收端所获得的信息量。因此，平均互信息又称为信道的信息传输率，记为R。

平均互信息具有如下重要性质。 

1． 非负性

即I(X; Y)≥0。

当X与Y统计独立时等号成立。

由
H(X)≥H(X|Y)
可得
I(X; Y)=H(X)-H(X|Y)≥0
而当X与Y统计独立时，有P(xy)=P(x)P(y),由式（3.2.2）可得
I(X; Y)=∑XYP(xy)logP(xy)P(x)P(y)
=∑XYP(x)P(y)log1=0
可见，平均互信息不会取负值，且一般情况下总大于0，仅当X与Y统计独立时才等于0。这个性质印证了通信系统建立的意义： 通过一个信道传输总体上讲是不会被误导的(平均获得信息量不为负值)，一般总能获得一些信息量，只有在X与Y统计独立的极端情况下才接收不到任何信息。

2． 极值性

即I(X; Y)≤H(X)。

根据熵的非负性，易得出信道疑义度也是非负的，即
H(X|Y)≥0
所以
I(X; Y)=H(X)-H(X|Y)≤H(X)

这一性质的直观含义为接收者通过信道获得的信息量不可能超过信源本身提供的信息量。只有当信道为无损信道，即信道疑义度H(X|Y)=0时，才能获得信源的全部信息量。

综合性质(1)和性质(2)可得
0≤I(X; Y)≤H(X)
当信道输入X与输出Y统计独立时，上式左边的等号成立； 而当信道为无损信道时，上式右边的等号成立。

3． 对称性

即I(X; Y)=I(Y; X)。

由于
P(xy)=P(yx)
故
I(X; Y)=∑XYP(xy)logP(xy)P(x)P(y)
=∑XYP(xy)logP(yx)P(y)P(x)
=I(Y; X)
I(X; Y)表示接收到Y后获得的关于X的信息量，I(Y; X)为发出X后得到的关于Y的信息量，这二者是相等的，当X与Y统计独立时，有
I(X; Y)=I(Y; X)=0
该式表明，此时不可能由一个随机变量获得关于另一个随机变量的信息(全损)。而当输入X与输出Y一一对应时，则有
I(X; Y)=I(Y; X)=H(X)=H(Y)
即从一个随机变量可获得另一个随机变量的全部信息(无损)。

4． I(X; Y)与各类熵的关系

由平均互信息的计算表达式
I(X; Y)=∑XYP(xy)logP(x|y)P(x)
=∑XYP(xy)logP(y|x)P(y)
=∑XYP(xy)logP(xy)P(x)P(y)
可得
I(X; Y)=H(X)-H(X|Y)(3.2.6)
I(X; Y)=H(Y)-H(Y|X)(3.2.7)
I(X; Y)=H(X)+H(Y)-H(XY)(3.2.8)
式中： H(X|Y)为信道疑义度，表示符号通过有噪信道传输后平均损失的信息量； H(Y|X)为噪声熵(或散布度)，表示在已知X的条件下，对于随机变量Y存在的平均不确定性。噪声熵是信道中的噪声引起，反映了信道中噪声源的不确定性，会影响信宿对信源信息的获取和识别； H(XY)为输入X与输出Y的联合熵。

由式（3.2.8）可得
H(XY)=H(X)+H(Y)-I(X; Y)
=H(X)+H(Y|X)(3.2.9)
H(XY)=H(Y)+H(X|Y)(3.2.10)
由式(3.2.6)和式（3.2.7）可得
H(X|Y)=H(X)-I(X; Y)(3.2.11)
H(Y|X)=H(Y)-I(X; Y)(3.2.12)


图3．2．2I(X; Y)与各类熵的

关系图

至此得到了平均互信息I(X; Y)与信源熵H(X)、信宿熵H(Y)、联合熵H(XY)、信道疑义度H(X|Y)及信道噪声熵H(Y|X)等的一系列关系式，它们之间的相互关系可用图3．2．2表示。

图3．2．2中圆H(X)减去其左边阴影部分H(X|Y)，即得到中间部分I(X; Y)，这正是式（3.2.6）所表达的结果。以此类推，式（3.2.6）~式（3.2.12）所描述的所有关系都可以通过图3．2．2得到形象的解释。

5． I(X; Y)的凸函数特性

由I(X; Y)的计算表达式
I(X; Y)=∑XYP(xy)logP(y|x)P(y)
又
P(xy)=P(x)P(y|x)
及
P(y)=∑XP(xy)=∑XP(x)P(y|x)
所以 
I(X; Y)=∑XYP(x)P(y|x)logP(y|x)∑XP(x)P(y|x)
f［P(x),P(y|x)］(3.2.13)
即I(X; Y)完全是信源X的概率分布P(x)及信道转移概率P(y|x)的函数。进一步分析可知，I(X; Y)与两个自变量P(x)与P(y|x)分别是∩型凸函数与∪型凸函数的关系。为避免烦琐的证明过程，可以用一个例子加以说明。

例3．2．1设信源X的概率空间为
XP(x)=01ω1-ωω-
BSC信道转移矩阵为
P=p-ppp-
而
I(X; Y)=H(Y)-H(Y|X)
首先分析上式中的H(Y|X)项： 
H(Y|X)=∑XP(x)∑YP(y|x)log1p(y|x)
=∑XP(x)plog1p+p-log1p-
由于上式中plog1p+p-log1p-与P(x)无关，因此可将∑XP(x)单独列出，又有
∑XP(x)=1
则有
H(Y|X)=plog1p+p-log1p-H(p)
其次分析H(Y)项： 
p(y=0)=ωp-+ω-p
p(y=1)=ωp+ω-p-=1-(ωp-+ω-p)
则有
H(Y)=(ωp-+ω-p)log1ωp-+ω-p+［1-(ωp-+ω-p)］log11-(ωp-+ω-p)
H(ωp-+ω-p)
由上可得
I(X; Y)=H(Y)-H(Y|X)
=H(ωp-+ω-p)-H(p)（3.2.14）

I(X; Y)的凸函数特性如下。



图3．2．3I(X; Y)与ω的关系曲线

(1) I(X; Y)是信源概率分布P(x)的∩型凸函数。

对于例3．2．1，I(X; Y) 与信源分布ω的关系曲线如图3．2．3所示。


可见，此时I(X; Y)与信源分布P(x)(例中为ω)确实呈∩型凸函数关系。当信源等概分布，即ω=ω-=12时，有I(X; Y)=H(1/2)-H(p)=1-H(p)，达到极大值。此时在信道接收端平均每个符号获得最大的信息量。而当ω=0或1时，有I(X; Y)=0，因为此时信源本身为确定的，不提供任何信息量。

这一性质表明： 当信道固定时，信源分布不同，该信道接收端获得的平均信息量也不同。在例3．2．1中，当两个信源符号等概分布时，I(X; Y)取极大值。后面将看到，I(X; Y)的这一凸函数特性是导出信道容量概念的依据。

(2) I(X; Y)是信道转移概率P(y|x)的∪型凸函数。

对于例3．2．1，I(X; Y)与信道转移概率P(y|x)的关系曲线如图3．2．4所示(例中P(y|x)以p表示)。由式（3.2.14）可知，当p=0时，有
I(X; Y)=H(ωp-+ω-p)-H(p)
I(X; Y)=H(ω)-H(0)=H(ω)
当p=1时，有
I(X; Y)=H(ω-)-H(1)=H(ω-)=H(ω)
此时，I(X; Y)取得极大值H(ω)。实际上这就是无损信道的情况。注意： 当p=1时，信道的输出正好完全相反。0变为1，1变为0。此时只要将接收译码规则颠倒，仍能无损失地接收到全部信息量，故I(X; Y)仍然能取极大值H(ω)。

当p=1/2时，有
I(X; Y)=H12-H12=0


图3．2．4I(X; Y)与信道转移概率

P(y|x)的关系曲线

此时I(X; Y)取极小值0，这说明对任何一种信源，总存在最差的信道，使I(X; Y)=0。

实际上，I(X; Y)这一凸函数特性也是导出率失真函数概念的重要依据，在此不再赘述。

以上在讨论平均互信息概念和性质时是基于单符号信道传输情况的。在实际中传输或存储的符号往往是一串离散符号为一组表示的，即以序列形式传输，下面讨论此种情况的平均互信息及相关性质。

3．2．3序列形式的平均互信息


前几节讨论了最简单的离散信道，即信道的输入和输出都只是单个随机变量的信道。然而一般离散信道的输入和输出往往是一系列时间(或空间)离散的随机变量，即为随机序列。该信道输入是N个符号X1,X2，…，XN构成的随机序列，输出端对应的也是以一个N维随机序列Y=(Y1,Y2，…，YN)表示，信道的转移概率将以N维联合转移概率P(Y|X)=P(Y1Y2…YN|X1X2…XN)描述。多符号信道的平均互信息与3．2．2节所定义的平均互信息一致，只不过信道中传递的符号以N维随机序列表示，具体为
I(X; Y)=H(X)-H(X|Y)
=H(Y)-H(Y|X)
=H(X)+H(Y)-H(XY)
若输入或输出随机序列中每个随机变量都取值于同一输入或输出的符号集，则这种离散信道称为单符号离散信道(图3．1．1)的N次扩展信道。其数学模型基本与单符号离散信道的数学模型相同，可用［XN,P(y|x),YN］概率空间来描述，不同的是各概率函数均是联合概率形式，如图3．2．5所示。



图3．2．5N次扩展信道的数学模型


其信道矩阵为
Π=［P(βh|αk)］=π11π12…π1sN
︙︙︙
πrN1πrN2…πrNsN
式中
πkh=P(βh|αk)
αk=(ak1,ak2,…，akN),aki∈{a1,a2,…,ar}，i=1,2,…,N
βh=(bh1，bh2…，bhN)，bhi∈{b1,b2,…,bs}，i=1,2,…,N
且满足
∑sNh=1πkh=1,k=1,2,…,rN
如果某个输出Yi(i=1,2，…，N)的取值仅取决于该时刻的输入Xi(i=1,2，…，N)，与其他时刻的输入无关，则为无记忆扩展信道，即DMC的N次扩展信道。此时，输入随机序列与输出随机序列之间的转移概率等于对应时刻的随机变量的转移概率的乘积，即
πkh=P(βh|αk)=∏Ni=1P(bhi|aki)
无记忆信道的N次扩展信道的平均互信息为
I(X; Y)=I(XN; YN)=H(XN)-H(XN|YN)=H(YN)-H(YN|XN)
=∑XN∑YNP(αkβh)logP(αk|βh)P(αk)=∑XN∑YNP(αkβh)logP(αkβh)P(αk)P(βh)
=∑XN∑YNP(αkβh)logP(βh|αk)P(βh)
3．2．2 节中讨论的平均互信息的性质同样适用于序列形式的平均互信息。

另外可以证明，在一般离散信道中信道输入和输出两个离散随机序列之间的平均互信息I(X; Y)，与两序列中对应的离散随机变量之间的平均互信息I(Xi; Yi)存在以下重要的结论。

定理3．2．1设离散信道的输入序列X=(X1X2…XN)通过信道传输，接收到的随机序列为Y=(Y1Y2…YN)，而信道的转移概率P(y|x)=P(y1y2…yN|x1x2…xN)，其中Xi∈A={a1,a2,…,ar},Yi∈B={b1,b2,…,bs},且有x∈X,y∈Y,xi∈Xi,yi∈Yi（i=1,2,…，N）。

若信道是无记忆的，则存在
I(X; Y)≤∑Ni=1I(Xi; Yi)

若信源是无记忆的，则存在

I(X; Y)≥∑Ni=1I(Xi; Yi)
若信源和信道都是无记忆的，则存在
I(X; Y)=∑Ni=1I(Xi; Yi)

(备注： 证明留作习题。)

该定理其实也是序列形式的平均互信息凸函数特性的表现。当给定信道是无记忆时，平均互信息I(X; Y)也是信源概率分布的∩型凸函数，其最大点位于信源各符号独立时； 而当给定信源是无记忆时，平均互信息I(X; Y)将随着信道转移概率呈∪型凸函数变化，其最小值点位于信道无记忆状态。





















3．3离散信道及其容量

3．3．1信道容量的定义

研究信道的目的是获得尽可能高的信息传输率，即希望信道中平均每个符号所能传送的信息量尽可能大。

由前面的讨论可知，平均互信息I(X; Y)代表了平均每个接收符号获得的关于输入X的信息量，因此它又称为信道的信息传输率，即
R=I(X; Y)=H(X)-H(X|Y)
信息传输率的概念可扩展到更宽的范围。如信源的熵也可直接称为信源的信息传输率，当对信源进行某种变换(如信源编码或信道编码)后，得到新的信源的熵即为变换后的信息传输率(平均每个变换后的符号Y承载关于变换前符号X的信息量)。而信源信息经过信道传输后的信息传输率就是平均互信息I(X; Y)。

I(X; Y)是信源分布P(x)及信道转移概率P(y|x)的函数，即
I(X; Y)f［P(x),P(y|x)］
而且I(X; Y)~P(x)为∩型凸函数关系，当信源分布P(x)变化到某一点时，I(X; Y)可达到最大值，即此时信道的信息传输率最大，这正是我们希望的。故对某一特定信道，当信源取某种最佳概率分布时，I(X; Y)能达到最大值。

定义3．3．1设某信道的平均互信息为I(X; Y)，其输入(即信源)的分布为P(x)，则定义
maxP(x){I(X; Y)}C(3.3.1)
为该信道的信道容量。

信道容量C即为信道的最大信息传输率(单位为比特/符号)，此最大信息传输率是在信源取最佳分布时获得的。对于例3．1．1中的BSC信道，最佳信源分布为等概分布，而其信道容量为C=1-H(p)，可见C只与信道转移概率p有关。

需要注意的是： 一个给定信道的信道容量C是确定的，不随信源分布而变，信道容量C是信道本身固有的属性，信道矩阵给定了，信道容量就是一个确定值，其取值的大小直接反映了信道传信能力的高低。

另外，式（3.3.1）中I(X; Y)的最大值通过调整信源X的概率分布P(x)得到。由I(X; Y)的凸函数特性知，并不是所有的信源概率分布都能使I(X; Y)达到最大值，对于给定信道，只有在与之匹配的最佳输入分布P*(x)时，信道的信息传输率才能达到此最大值，即达到了信道容量。即使如此，信息传输过程中还会存在差错，这是由信道的转移概率决定的，是信息传输固有的现象。当传输错误超过可靠性容限时，采用信道编码的方法将特定的冗余码元加入信源符号中，以便在接收端纠正错误，从而提高传输可靠性。这样做势必降低信道的信息传输率，有效性与可靠性是信息传输的一对基本矛盾。而香农信息理论告诉我们,这个矛盾理论上是可以解决的。在后续章节介绍的有噪信道编码定理将指出，总存在最佳的信道编码，保证在信道的信息传输率不超过信道容量时能获得任意高的传输可靠性。

有时我们关心的是信道在单位时间内平均每个符号传输的信息量。若传输一个符号需要t秒，则信道平均每秒传输的信息量为
Rt=1tI(X; Y)
Rt称为信息传输速率，单位为b/s。而该信道单位时间内传输的最大信息量为
Ct=1tmaxP(x){I(X; Y)}
一般仍称Ct为信道容量，但增加一个下标t，区别于C。

下面从单符号信道到序列形式传递的信道，从简单到复杂，讨论各种离散信道的容量计算。

3．3．2简单离散信道的信道容量

计算信道容量是对信道研究的重要课题，对一般信道而言计算其信道容量并非易事，下面两节介绍几种特殊信道，根据其信道特点，可简化对平均互信息I(X; Y)求极大值的过程。当离散信道的输入与输出之间为确定关系或简单的统计依赖关系时，可称其为简单离散信道，包括无噪无损信道、有噪无损信道、无噪有损信道。图3．3．1为这三类信道的具体例子。



图3．3．1三类简单离散信道

1． 无噪无损信道

图3．3．1(a)所示信道的输入与输出符号之间存在确定的一一对应关系，其信道转移概率为
P(bj|ai)=0，i≠j1,i=j(i,j=1,2,3)
它的信道转移矩阵为单位矩阵，即
P=100010001
这种信道疑义度H(X|Y)必为0，所以平均互信息为
I(X; Y)=H(X)=H(Y)
它表示接收端收到符号Y后平均获得的信息量等于信源发出每个符号所包含的平均信息量，信道传输中没有信息损失。而且由于噪声熵也等于0，因此图3．3．1(a)所示的信道称为无噪无损信道，其信道容量为
C=maxP(x){I(X; Y)}=maxP(x){H(X)}=logr（比特/符号）
2． 有噪无损信道

图3．3．1(b)所示的有噪无损信道的转移矩阵为
P=1212000000353101100000001

每个输入符号通过信道后可能变成几种输出符号，因此其噪声熵H(Y|X)≥0。但各个输入符号所对应的输出符号不相重合，这些输出符号可分成不相交的三个集合，且这些集合与各输入符号一一对应。这就意味着，接收到输出符号Y后，对发送X的符号可以完全确定，信道疑义度H(X|Y)=0，故其平均互信息为
I(X; Y)=H(X)
由于噪声熵H(Y|X)>0，而I(X; Y)=H(Y)-H(Y|X)，故I(X; Y)<H(Y)。因此，有噪无损信道的信道容量为
C=maxP(x){I(X; Y)}=maxP(x){H(X)}=logr（比特/符号）
由上述两种信道的特点可以看出： 若信道转移矩阵中每一列有且仅有一个非零元素(每个输出符号对应着唯一的一个输入符号)，则该信道一定是无损信道。其信息传输率即等于信源熵，信道容量等于logr。

3． 无噪有损信道

图3．3．1(c)所示的无噪有损信道的转移矩阵为
P=100010010010001001
每个输入符号都确定地转变成某一输入信号，因此其噪声熵H(Y|X)=0，而接收到输出符号却不能确切地判断发出的是什么符号，因此信道疑义度H(Y|X)>0，从而
I(X; Y)=H(Y)<H(X)
设Y有s个符号，则Y等概分布时其熵H(Y)最大。由图3．3．1(c)所示的信道转移关系容易证明存在最佳的输入分布使输出Y达到等概分布，故这种无噪有损信道的信道容量为
C=maxP(x){I(X; Y)}=maxP(x){H(Y)}=logs（比特/符号）
由上述分析可知，若信道转移矩阵中每一行有且仅有一个非零元素，则该信道一定是无噪信道。

至此分析了无损或无噪的简单离散信道及其信道容量的计算方法。更一般的离散信道既是有噪的又是有损的(后面统一称为有噪信道)，其信道转移矩阵中至少有一行存在一个以上的非零元素，同时至少有一列存在一个以上的非零元素。这种情况下信道容量计算将十分复杂。下面讨论一类特殊的有噪有损信道——对称离散信道。














3．3．3对称离散信道的信道容量

离散信道中有一类特殊的信道，其转移矩阵具有很强的对称性，即信道矩阵P中每一行都是由同一集合{p′1,p′2,…,p′s}的诸元素排列而成，并且每一列也都是由同一集合{q′1,q′2,…,q′r}诸元素排列而成，具有这种对称性的信道称为对称离散信道。例如，信道矩阵
P1=1313161616161313
与
P2=121316161213131612
对应的信道都是对称离散信道。信道矩阵
P3=0．70．20．10．20．10．7
对应的信道不是对称离散信道，因为它的第1列、第2列及第3列的构成元素都不完全相同。而且由于r=2，s=3，因此无论怎样调整信道矩阵P3的元素都不会满足对称性。

同样，信道矩阵
P4=1313161616131613
对应的信道也不是对称离散信道，因为它的第1列与第2列的构成元素都不完全相同。若将信道矩阵P4进行列置换，则可得到如下等效信道矩阵：
P4=1316131616131316
该矩阵可按列划分成3个子矩阵，每个子矩阵均是对称矩阵，这类信道称为准对称信道。即如果把信道输出符号集Y划分成若干子集Yh（h=1,2,…,s），每个子集Yh所对应的信道矩阵中列所组成的子阵满足“每行元素是第一行的置换，每一列元素是第一列的置换”的对称矩阵条件。不难看出，对称信道既对输入对称也对输出对称，准对称信道仅对输入对称而对输出是局部对称，因此对称信道是准对称信道的特例。

下面分析对称离散信道的信道容量。

由
I(X; Y)=H(Y)-H(Y|X)
而
H(Y|X)=-∑XP(x)∑YP(y|x)logP(y|x)
由于信道的对称性，信道矩阵的每一列中的元素均取自同样的集合，因此上式中第二个和式∑YP(y|x)logP(y|x)与x无关，仅与各信道转移概率值p′i有关，并且其形式与信源熵计算公式相同，故
H(Y|X)=-∑YP(y|x)logP(y|x)∑XP(x)
=-∑YP(y|x)logP(y|x)
H(p′1,p′2,…,p′s)
因此可得
I(X; Y)=H(Y)-H(p′1,p′2,…,p′s)
信道容量为
C=maxP(x){H(Y)}-H(p′1,p′2,…,p′s)
这就变成求一种输入分布P(x)使H(Y)取最大值的问题。

共有s个输出符号，故H(Y)的极大值为logs，且只有当输入符号等概分布时H(Y)才达到此最大值。此种情况下不一定存在一种输入分布P(x)能使输出符号达到等概率分布。但对于对称离散信道，当输入X等概分布时，输出Y恰好也取等概分布。这是由于
P(y)=∑XP(xy)=∑XP(x)P(y|x)
当X等概分布时有P(x)=1/r,故
P(y)=∑X1rP(y|x)=1r∑XP(y|x)
由于对称离散信道的矩阵P中每一列之和为常数，即∑XP(y|x)=∑ri=1q′i，故P(y)=1r∑ri=1q′i，与y无关，Y中所有符号必然等概分布，由此可得对称离散信道的信道容量为
C=logs-H(p′1,p′2,…,p′s)（3.3.2）
上式是对称离散信道能够传输的最大平均信息量，它只与对称信道矩阵中的行矢量{p′1,p′2,…,p′s}有关，该信道的最佳输入分布为等概分布。

例3．3．1某对称离散信道的信道矩阵为
P=1313161616161313
由式（3.3.2）可得其信道容量为
C=log4-H13,13,16,16
=2+13log13+13log13+16log16+16log16
=0．0817（比特/符号）
若信道的输入符号与输出符号数都等于r，且信道矩阵为
P=p-pr-1…pr-1pr-1p-…pr-1︙︙︙pr-1pr-1…p-
式中： p-=1-p。

此类信道称为强对称信道或均匀信道，它的总错误概率为p，对称地平均分配给r-1个输出符号。它是对称离散信道的一个特例，其信道容量为
C=logr-Hp-,pr-1,pr-1,…,pr-1
=logr+p-logp-+(r-1)pr-1logpr-1
=logr-plog(r-1)+(p-logp-+plogp)
=logr-plog(r-1)-H(p)(3.3.3)
对于r=2的二元对称信道，由式（3.3.3）可计算得其信道容量为
C=1-H(p)（比特/符号）
可见结果与前述结论一致。

3．3．4一般离散信道的信道容量

信道容量是在固定信道的条件下平均互信息的最大值，由于I(X; Y)是输入概率分布P(x)的∩型凸函数，所以最大值一定存在。而I(X; Y)是r个变量{P(a1),P(a2),…，P(ar)}的多元函数，其中P(x)要满足非负和完备性的约束，因此求信道容量的问题就是多元函数求约束极值的问题。对离散信道，P(x)是离散的数值集合，最大值可以用拉格朗日乘子法求解； 对于连续信道，可以用变分法求解。对于一般DMC信道来说，有时还得不到一个清晰的解析解。本节介绍求信道容量的一般性规律及通用方法。

3．3．4．1DMC的信道容量定理

为了推导信道容量，首先介绍微分学中关于凸函数极值的一个定理。

定理3．3.1设f(x)是定义在所有分量均非负的半无限矢量空间上的可微上凸函数，M=maxf(x)是f(x)在此空间上的最大值。则x=x*时能达到此最大值M的充要条件是
f(x)xx=x*≤0,x=0f(x)xx=x*=0,x>0(3.3.4)

考虑图3．2．1所示的单符号离散无记忆信道，我们要完成的工作就是在以下约束条件下求平均互信息的最大值，即
C=maxP(x)I(X; Y)
∑ri=1P(ai)=1P(ai)≥0
引入一个新函数
=I(X; Y)-λ∑ri=1P(ai)-1
式中： λ为拉格朗日乘子(待定常数)。

解方程组
P(al)P=P=0(l=1,2,…,r)
其中的关键步骤的结果：
I(X; Y)P(al)=∑sj=1P(bj|al)logP(bj|al)-∑j∑iP(ai)P(bj|ai)P(al)logP(bj)-
∑i,jP(aibj)logP(bj)P(al)
由于
logP(bj)P(al)=1P(bj)P(bj)P(al)loge=P(bj|al)P(bj)loge(l=1,2,…,r)
则有
I(X; Y)P(al)=∑sj=1P(bj|al)logP(bj|al)P(bj)-∑i,jP(aibj)P(bj|al)P(bj)loge
=∑sj=1P(bj|al)logP(bj|al)P(bj)-∑sj=1P(bj|al)loge
=∑sj=1P(bj|al)logP(bj|al)P(bj)-loge
因此
P(al)=∑sj=1P(bj|al)logP(bj|al)P(bj)-loge-λ=0(l=1,2,…,r)
综合可得
∑sj=1P(bj|al)logP(bj|al)P(bj)=loge+λ(l=1,2,…,r)∑rl=1P(al)=1(3.3.5)
在满足式（3.3.5）时平均互信息I(X; Y)为最大，即
C=maxP(X)I(X; Y)=∑rl=1P(a*l)∑sj=1P(bj|a*l)logP(bj|a*l)P(bj)=loge+λ
令
I(x=ai; Y)=∑ri=1P(ai)∑sj=1P(bj|ai)logP(bj|ai)P(bj)
它可表示输出端接收到Y后获得关于x=ai 的信息量，即是信源符号x=ai对输出端Y 平均提供的互信息。由式（3.3.5）不难看出，当平均互信息I(X; Y)达到最大时，每个输入符号x向输出Y提供的平均互信息量一样，这个值就是该信道的信道容量。

由此，得到离散无记忆信道有下述信道容量定理。

定理3．3.2一般离散信道的平均互信息I(X; Y)达到极大值(等于信道容量)的充要条件是输入概率分布｛pi｝满足
I(xi; Y)=C，对所有xi其pi≠0I(xi; Y)≤C，对所有xi其pi=0
定理3．3.2说明对于达到信道容量的最佳输入分布P*={P*(x1),…,P*(xr)}，所有概率非0的信源符号为输出端提供了相同的信息量。且根据此定理还可得出准对称信道的容量定理。

定理3．3.3达到准对称DMC信道容量的输入概率分布相等。

证明： 若信道为准对称，则该信道输出符号集Y划分成若干个子集Yh（h=1,2,…,s），每个子集Yh所对应的信道矩阵中列所组成的子阵是对称的。且设信道输入等概，即
P(x=ak)=1r（k=1,2，…，r）
则
I(x=ak; Y)=∑sj=1P(bj|ak)logP(bj|ak)P(bj)
=∑sj=1P(bj|ak)logP(bj|ak)1r∑ri=1P(bj|ai)
=∑h∑j∈YhP(bj|ak)logP(bj|ak)1r∑ri=1P(bj|ai)(3.3.6)
由于Yh对应的子阵是对称矩阵，因此对每一个bj∈Yh,1r∑ri=1P(bj|ai)是一样的，即属于同一个输出子集Yh中的bj，式（3.3.6）中分母部分相等(同一个输出子集中的符号概率P(bj)相等)。而同一子阵中各行元素{P(bj|ak)}都可以由第一行置换得到，因此对于任何ak，
∑j∈YhP(bj|ak)logP(bj|ak)1r∑ri=1P(bj|ai)


图3．3．2删除信道

相等，式（3.3.6）中第一个求和是对h进行的，即对所有输出子集求和，与k无关，因此对任何ak，I(x=ak; Y)相等，满足定理3．3.2，即当信道输入等概时，平均互信息达到最大(信道容量)。［证毕］

例3．3．2删除信道如图3．3．2所示，其信道矩阵为
P=1-p-qqppq1-p-q
可知该信道是准对称信道，其中Y1={0,1}，Y2={2}，由定理3．3．3可求其信道容量。当输入等概时，P(x=0)=P(x=1)=0．5，并且
C=I(x=0; Y)=I(x=1; Y)
=(1-p-q)log1-p-q(1-q)/2+qlogqq+plogp(1-q)/2
=(1-p-q)log(1-p-q)+plogp-(1-q)log1-q2


图3．3．3离散信道

例3．3．3设离散信道如图3．3．3所示，其信道矩阵为
P=10100．50．50101

该信道仅对输出对称，可利用定理3．3.2求其信道容量。观察此信道，输入符号a3 传递到b1和b2是等概率的，可设想若a3的概率分布等于零，则该信道变成无噪信道，而且a1、a2与a4、a5都分别传递到b1与b2，因此可只取a1和a5。所以假设输入概率分布P(a1)=P(a5)=0．5，P(a2)=P(a3)=P(a4)=0，可计算得输出符号概率P(b1)=P(b2)=0．5。不难计算
I(x=a1 ; Y)=I(x=a5 ; Y)=log2
I(x=a2 ; Y)=I(x=a3 ; Y)=I(x=a4 ; Y)=0
可见此假设分布满足定理3．3.2，因此信道容量为
C=log2=1（比特/符号）
最佳分布为
XP*(x)=a1a2a3a4a50．50000．5
实际上，还可以假设输入分布为P(a1)=P(a2)=P(a4)=P(a5)=0．25，P(a3)=0，同样可得输出符号概率P(b1)=P(b2)=0．5，以及
I(xi; Y)=log2(xi=a1,a2,a4,a5)I(xi; Y)=0<log2(xi=a3)
此假设分布也满足定理3．3.2，因此信道容量仍为
C=log2=1（比特/符号）
但最佳分布为
XP*(x)=a1a2a3a4a5141401414
当然，还可找到此信道的其他最佳输入分布。这也反映出信道容量只与信道特性相关，与信道输入分布无关。因此，信道的最佳输入分布不一定是唯一的。从式（3.3.5）可知，互信息I(xi;  Y)仅直接与信道转移概率及输出概率分布有关，因而达到信道容量的输入概率分布不是唯一的，但输出概率分布是唯一的。

3．3．4．2信道矩阵为非奇异方阵的信道容量

定理3．3.2是一个构造性定理，它只给出了最佳输入概率分布应该满足的条件。为了得到具体的最佳输入概率分布P*={P*(x1),P*(x2),…,P*(xr)}和信道容量C，需要求解式（3.3.5）所示的方程组。这是一个包括r+1个方程、r+1个未知量({P*(x1),P*(x2),…,P*(xr)}和C)的方程组。当r<s时，求解方程组很困难，需要反复试验或借助于计算机迭代计算法。当信道矩阵为非奇异方阵时，方程组有唯一解。下面讨论这种情况。

可将式（3.3.5）中前r个方程
∑sj=1P(bj|ai)logP(bj|ai)P(bj)=C
等效改写为
∑sj=1P(bj|ai)logP(bj|ai)=C+∑sj=1P(bj|ai)logP(bj)
=∑sj=1P(bj|ai)［C+logP(bj)］
进行变量代换，令βj=C+logP(bj)，上式可写为
∑sj=1P(bj|ai)logP(bj|ai)=∑sj=1P(bj|ai)βj(i=1,2,…,r)（3.3.7）
写成矩阵形式，即
-H(Y|a1)H(Y|a2)︙H(Y|ar)=P(b1|a1)…P(bs|a1)︙︙P(b1|ar)…P(bs|ar)β1β2︙βs（3.3.8）
式（3.3.7）是一个包含r个方程、s个未知量的方程组，其系数矩阵即为信道转移概率矩阵，当r=s且信道矩阵非奇异方阵，即r=s且信道矩阵是可逆矩阵时，方程有唯一的解，可解出β1，β2，…，βs。进一步地，根据βj=C+logP(bj)和输出集的完备性可求得信道容量为
C=log∑rj=12βj
对应的输出概率分布为
P(bj)=2βj-C(j=1,2,…,s)
再根据
P(bj)=∑ri=1P(ai)P(bj|ai)（j=1,2,…,s）
即可解出达到信道容量的最佳输入分布P*(x=ai)。



图3．3．4Z信道

例3．3．4计算如图3.3.4所示的Z信道的信道容量和最佳输入分布(其中0<p<1)。


解： 该信道矩阵为
P=10p1-p
可知该信道不是对称类信道，但其信道矩阵为非奇异方阵，所以根据式（3.3.7）得
β1=1log1=0pβ1+(1-p)β2=plogp+(1-p)log(1-p)
求解方程组即得
β1=0,β2=H(p)p-1
式中： H(p)为以p为独立自变量的二元信源熵。

所以信道容量为
C=log［1+2H(p)p-1］
最佳输出分布为
P(b1)=(1+2H(p)p-1)-1
P(b2)=1-P(b1)=2H(p)p-11+2H(p)p-1
最佳输入分布为
P(a1)=1-pp1-p1+(1-p)pp1-p
P(a2)=1-P(a1)=pp1-p1+(1-p)pp1-p





3．3．4．3信道容量的迭代算法

比较经典的离散无记忆信道容量的迭代算法是BlahutArimoto算法，由S．Arimoto和R．E．Blahut于1972年给出，它是一种有效的数值算法，能以任意给定的精度及有限步数计算出任意离散无记忆信道的信道容量，因此可以作为一般DMC的信道容量通用算法。该算法的理论基础就是定理3．3.2，本节仅直接给出算法流程，其详细推导及收敛性证明参见文献［4］。

下面的定理给出了BlahutArimoto算法的基本思想。

定理3．3．4设信道的转移概率矩阵Q=［P(bj| ai)］r×s，P0是任给的输入符号的一个初始概率分布，其所有分量P0(ai)均不为0。按照下式不断对概率分布进行迭代、更新： 
Pr+1(ai)=Pr(ai)βi(Pr)∑Kl=1Pr(al)βl(Pr)
式中
βi(Pr)=exp［I(x=ai; Y)］P=Pr=exp∑sj=1P(bj|ai)logP(bj|ai)∑Kl=1Pr(al)P(bj|al)
则由此所得的I(Pr,Q)序列收敛于信道容量C。

算法首先初始化输入符号的概率分布，使所有概率分量不为0(一般情况下，往往将初始分布设为等概率分布)，而后计算每个输入符号对输出集的平均互信息I(x=ai; Y)。在迭代过程中，不断提高具有较大平均互信息I(x=ai; Y)的输入符号ai的概率，降低较小互信息的输入符号概率。当平均互信息与最大互信息足够接近时，迭代结束，认为平均互信息达到信道容量。其算法流程如图3．3．5所示。



图3．3．5一般DMC信道容量迭代算法流程


图3．3．5中：
IL(P)=log∑Ki=1P(ai)βi(P)
IU(P)=log{maxiβi(P)}
3．3．5离散无记忆N次扩展信道的信道容量

对于一般的离散无记忆信道，其信道容量的计算需附加许多条件，并通过复杂的迭代运算才能求得。不过一旦得到了离散无记忆信道的信道容量，就较易求得它的N次扩展信道的信道容量。

设基本信道为离散无记忆信道，其输入符号取自集合A={a1,a2,…，ar}，输出符号集合为B={b1,b2,…,bs}，信道矩阵为
P=P11P12…P1sP21P22…P2s︙︙︙Pr1Pr2…Prs
且满足
∑sj=1Pij=1(i=1,2,…,r)
则此无记忆信道的N次扩展信道的数学模型可用图3．2．5表示。

该N次扩展信道的输入矢量X的可能取值有rN个，而输出矢量Y的可能取值有sN个。其信道转移矩阵为
π=π11π12…π1sNπ21π22…π2sN︙︙︙πrN1πrN2…πrNsN
式中： 
πkh=P(βh|αk)
=P(bh1bh2…bhN|ak1ak2…akN)
=∏Ni=1P(bhi|aki),ki∈{1,2,…,rN},hi∈{1,2,…,sN}
且满足
∑sNh=1πkh=1（k=1,2,…,rN）
由定理3．2．1，离散无记忆N次扩展信道的平均互信息满足
I(X; Y)≤∑Ni=1I(Xi; Yi)
当信源也为离散无记忆时，上式等号成立。故当信源X=(X1,X2,…,XN)取无记忆信源，且各分信源Xi均取得最佳分布时，可得其信道容量为
CN=maxP(x)I(X; Y)=maxP(x)∑Ni=1I(Xi; Yi) 
=∑Ni=1maxP(xi)I(Xi; Yi)=∑Ni=1Ci（3.3.9）
式中令Ci=maxP(xi)I(Xi; Yi)，这是输入随机变量X=(X1,X2,…,XN)中第i个随机变量Xi通过离散无记忆信道传输的最大信息量。若已求得离散无记忆信道的信道容量C，则由于输入随机序列X中各变量在同一信道中传输，故有Ci=C（i=1,2,…,N），即任何时刻通过离散无记忆信道传输的最大信息量都相同。

由式（3.3.9）得
CN=NC
此式说明离散无记忆N次扩展信道的信道容量等于原单符号离散信道的信道容量的N倍，且只有当输入信源是无记忆的，并且每一输入变量Xi的分布P(x)各自达到最佳分布时，才能达到这个信道容量值NC。

3．3．6并联信道与串联信道的信道容量

在研究较复杂的系统时，往往可以将其分解成若干已知信道容量的简单信道的组合，从物理连接上看，组合多为信道间的串联或并联。并联信道中的各个子信道是并行的，根据输入与输出占用信道的方式又可分为输入并接信道、并用信道以及和信道。






设有N个子信道，其输入分别是X1,X2，…，XN，输出分别是Y1，Y2，…，YN，各子信道的转移概率分别是P(y1|x1)，P(y2|x2)，…，P(yN|xN)，各子信道的信道容量分别是C1，C2，…，CN。



图3．3．6N个信道的并接信道

3．3．6．1输入并接信道

N个信道的并接信道如图3．3．6所示，各子信道的输入集取自相同的符号集合X，输出集合取自不同的符号集Y1，Y2，…，YN、则该信道的平均互信息可表示为I(X; Y1，…，YN)。

不难得出以下结论： 

I(X; Y1，…，YN)=I(X; Y1)+I(X;  Y2 |Y1)+…+

I(X;  YN |Y1…YN-1)

I(X;  Y1，…，YN)≥I(X; Yi)

C≥max{C1,C2，…，CN}

C≤maxP(x)H(X)

在实际中，多次测量、多路径传输、协同通信等可以考虑用输入并接信道进行建模分析。



图3．3．7并接信道

例3．3．5将BSC(p)与BSC(q)组成输入并接信道如图3.3.7所示，求该组合信道的容量。


解： 组合信道的输入集为{0,1}，输出集为{00,01,10,11}，等效信道转移矩阵为
P=p-q-p-qpq-pqpqpq-p-qp-q-
这是一个准对称信道，可以分成两个子矩阵
P1=p-q-pqpqp-q-,
P2=p-qpq-pq-p-q
当输入等概时，平均互信息最大，其信道容量为

C=log2-H(p-q-,p-q,pq-,pq)-(p-q+pq-)log(p-q+pq-)-(p-q-+pq)log(p-q-+pq)
其容量曲线如图3．3．8所示。可见,该信道的容量依然是两个信道转移概率的下凸型函数。



图3．3．8输入并接信道容量


3．3．6．2并用信道



图3．3．9N个信道的

并用信道

N个信道的并用信道如图3．3．9所示，各子信道的输入和输出均取自不同的输入符号集合X1,X2，…，XN和输出符号集Y1，Y2，…，YN，则该信道的平均互信息可表示为I(X1X2… XN; Y1Y2…YN)。

并用信道中N个子信道独立并行使用，其等效信道转移概率为
P(y1y2…yN|x1x2…xN)=∏Ni=1P(yi|xi)
该信道相当于离散无记忆信道的N次扩展信道。因此有
I(X; Y)=I(X1X2…XN; Y1Y2…YN)≤∑Ni=1I(Xi; Yi)
所以并用信道的信道容量为
C=max∑Ni=1I(Xi; Yi)=∑Ni=1maxI(Xi; Yi)=∑Ni=1Ci
例3．3．6将BSC(p)与BSC(q)组合成并用信道，求该组合信道的容量。

解： 并用信道的输入集和输出集均可表示为{00,01,10,11}，等效转移矩阵为
P=p-q-p-qpq-pqp-qp-q-pqpq-pq-pqp-q-p-qpqpq-p-qp-q-
该信道为对称信道，其容量为
C=log4-H(p-q-,p-q,pq-,pq)=2-H(p)-H(q)=C1+C2
由此可见，并用信道容量等于两个并联的子信道容量之和。

在实际的通信中，诸如各类复用系统及近代提出的多输入多输出（MIMO）系统都可抽象为并用信道，这也就不难解释为何可以利用MIMO信道成倍地提高无线信道容量，成为现代的无线宽带移动通信系统的主要支撑技术。



图3．3．10和信道

3．3．6．3和信道


和信道如图3．3．10所示，由N个独立的子信道并联组成，但信息传输每次只通过其中的一个信道。r1，r2，…，rN表示各子信道的利用率，显然0≤ri≤1(i=1,2,…,N)且r1+r2+…+rN=1。

下面以两个信道组成和信道为例，讨论该类信道的平均互信息与信道容量。

设信道1和信道2的转移概率矩阵分别为P1和P2，两个信道被选用的概率(称为信道利用率)分别为r1和r2，r1+r2=1。输入符号集(信源)分别为X1和X2，其数学模型分别如下: 
X1P(x1)=a1a2…aq1p1p2…pq1,
∑q1i=1pi=1
X2P(x2)=a′1a′2…a′q2p′1p′2…p′q2，∑q2i=1p′i=1
那么组合成的和信道的输入数学模型为
XP(x)=a1…aq2a′1…a′q2r1p1…r1pq1r2p′1…r2p′q2
显然，∑XP(x)=1。

则和信道的输入熵为
H(X)=∑XP(x)log1P(x)=∑q1i=1r1pilog1r1pi+∑q2i=1r2p′ilog1r2p′i
=r1H(X1)+r2H(X2)+H(r1)
该信道的转移概率为
P(y|x)=P1(bj|ai)（ai∈X1,bj∈Y1）P2(bj|ai)（ai∈X2,bj∈Y2）0（其他）
可见，和信道的转移概率矩阵实际是一个由P1和P2构成的分块对角矩阵，即
Q=P100P2
和信道的损失熵为
H(X|Y)=H(X1X2|Y1Y2)=∑P(Yi)H(Xi|Yi)
=r1H(X1|Y1)+r2H(X2|Y2)
则平均互信息为

I(X; Y)=H(X)-H(X|Y)
=r1［H(X1)-H(X1|Y1)］+r2［H(X2)-H(X2|Y2)］+H(r1,r2)
=r1I(X1; Y1)+r2I(X2; Y2)+H(r1,r2)
下面计算该信道的信道容量：
C=maxr1,P(x1),P(x2)I(X; Y)=maxr1,P(x1),P(x2){r1I(X1; Y1)+r2I(X2; Y2)+H(r1,r2)}
=maxr1{r1maxP(x1)I(X1; Y1)+r2maxP(x2)I(X2; Y2)+H(r1,r2)}
=maxr1{r1C1+r2C2+H(r1,r2)}
令
I(X; Y)r1=0
有
C1-C2-logr1+logr2=0
C1-logr1=C2-logr2=defλ
因此
r1=2C1-λ
r2=2C2-λ
又
r1+r2=1
可得
λ=log(2C1+2C2)
进而可得
λ=C=log(2C1+2C2)
同理，对N个信道的和信道，有
Q=P1P2PN
设各个信道的利用率为Pi(C)=ri，则其平均互信息为
I(X; Y)=∑Ni=1riI(Xi; Yi)+H(r1r2…rN)
其信道容量为
C=log2∑Ni=12Ci
各子信道要满足各自的最佳输入分布，且最佳信道利用率Pi(C)=2(Ci-C)。

例3．3．7将BSC(p)与BSC(q)组合成和信道，求该组合信道的容量。

解： 和信道的等效信道转移矩阵为
P=p-p00pp-0000q-q00qq-
信道容量为
C=log［21-H(p)+21-H(q)］
不同参数下的和信道容量如图3．3．11所示。



图3．3．11和信道容量


将上述三个例子的结果进行对比，如图3．3．12所示。由图可以看出和信道带来的优势。当p=0．5，q=0．1时，信道BSC(p)的容量C1=0，BSC(q)的容量C2=0．531，最佳信道利用率r1=0．409，r2=0．591，可得容量C=1．2898。比其中任意子信道的容量都大，其原因是和信道在信道选择(切换)过程中选择的不确定性也携带了一部分信息。利用这一原理就可解释空间调制(Spatial Modulation，SM)技术提高分集增益的本质。



图3．3．12三种并联类组合信道的容量对比
















空间调制的基本原理(图3．3．13)是将一组信息比特分为空间维和符号域两部分： 一部分经过传统的调制进行发送，如PSK、QAM等； 另一部分是将部分调制信息映射到空间调制系统中相应的天线上进行发送，而这种处理就相当于组建了一个和信道，所以空间调制系统的天线序号也承载了一部分发送信息，这样携带的信息为k=logNt+logM（Nt为发送天线数目，M为调制方式的阶数）。由此可见，系统的频谱利用率大大提高了。



图3．3．13SM的基本原理


例如，传输比特序列为 0110，其中前面两个比特 01 对应于选择天线 2(按照表 3．3．1中的映射规则)，后面两比特 10 则用来选择调制符号 3，所以 0110 比特信息在空间调制系统中是激活第二根天线发送第三个符号。



表3．3．1映射规则




输入信息比特天线索引调制符号


0011

0122

1033

1144


空间调制是一种新型的MIMO无线通信技术，与MIMO 系统相比较，因其只需要激活一根发射天线来进行信息的传输，所以能够有效地避免多天线系统天线间同步(IAS)和天线间干扰(ICI)等问题。空间调制技术已被广泛运用于5G通信系统。

3．3．6．4串联信道

串联信道是一种基本的信道组合方式，在卫星中继通信、微波中继接力等实际应用中广泛存在。当然，还包括在许多数据处理系统中，往往是根据执行功能或任务需求将整个系统划分成若干个独立处理的单元构成的串联信道。信道串联的一个关键前提是前一个子信道的输出集与下一级的子信道输入集相同。如两个信道组成的串联信道如图3．3．14所示。



图3．3．14串联信道


图中串联信道的等效信道转移概率为P(z|x)，若X、Y、Z 满足马尔可夫链X→Y→Z，即X和Y是统计相关的，Y和Z是统计相关的，所以X和Z也是统计相关的； 但若Y已知，则X和Z就是统计无关，即I(X; Z|Y)=0。总信道的传递概率矩阵为子信道的信道矩阵乘积，即
P=P1P2
串联信道的信息传输测度函数存在如下规律。

定理3．3．5(数据处理定理)对于马尔可夫链X→Y→Z，有
I(X; Z)≤I(X; Y)
I(X; Z)≤I(Y; Z)
证明： 根据平均互信息的链式法则可得
I(X; YZ)=I(X; Y)+I(X; Z|Y)=I(X; Z)+I(X; Y|Z)
对于马尔可夫链X→Y→Z，有I(X; Z|Y)=0，且由平均互信息的非负性可知I(X; Y|Z)≥0，故有I(X; Y)≥I(X; Z)。

同理，有
I(XY; Z)=I(Z; XY)=I(Z; Y)+I(Z; X|Y)=I(Z; X)+I(Z; Y|X)
I(Z; X|Y)=0,I(Z; Y|X)≥0
因此有
I(Z; Y)≥I(Z; X)
根据平均互信息的对称性可得
I(Y; Z)≥I(X; Z)［证毕］

数据处理定理也称为信息不增性或数据处理不等式，它说明串联信道的传输只会丢失信息而不会额外增加信息，即在数据处理中每增加一次处理环节，一般会损失一部分信息，最多保持原来获得的信息，不可能比原来获得的信息有所增加。只有当串联信道的等效信道矩阵等于第一级信道矩阵时(如图3．3．14串联信道中第二个信道是无噪一一对应信道)，通过串联信道传输后不会增加信息的损失。

例3．3．8将以下两个信道进行串联：
P1=1/31/31/301/21/2
，
P2=10002/31/301/32/3
不难看出，串联信道的信道矩阵为
P=P1P2=1/31/31/301/21/2
故有I(X; Z)=I(X; Y)。该串联信道不会使信道中信息损失增加。

下面考虑串联信道的信道容量问题。

由于串联信道的信道矩阵等于各子信道的信道矩阵的乘积，即
P=P1P2…PN
基于P可以计算等效串联信道的信道容量。而根据定理3．3．5可知，串联信道的容量不大于组成它的各子信道的容量Ci(i=1,2，…，N)，因此有
C≤min{C1,C2,…，CN}

例3．3．9求N个相同的二元对称信道BSC(p)串联的信道容量。

解： 设BSC(p)的信道矩阵为
P0=1-ppp1-p
BSC(p)的信道容量为
C=1-H(p)
将BSC(p)进行两级串联，其信道矩阵为
P=P20=(1-p)2+p22p(1-p)2p(1-p)(1-p)2+p2
该信道仍为二元对称信道，只是错误传输概率由p变为2p(1-p)，因此其信道容量为
C2=1-H［2p(1-p)］
可以验证，C2≤C1，当且仅当p=0．5时等式成立。

再考虑BSC(p)的N级串联情况，其等效信道矩阵P=PN0，通过正交变换可以把P0分解为
P0=T-11001-2pT
式中
T=2211-11
因此有
P=PN0=T-11001-2pNT
=T-1100(1-2p)NT
=121+(1-2p)N1-(1-2p)N1-(1-2p)N1+(1-2p)N
可见，N级BSC的串联信道也是二元对称信道，其信道容量为
CN=1-H［1-(1-2p)N］
若p≠0，当N趋于无穷大时，有
P∞0=limN→∞PN0=0．50．50．50．5


图3．3．15N级BSC(p)串联信道的

信道容量变化

此时的信道容量为0。因此，当N→∞时，CN→0，即信息完全损失。图3．3．15表示了BSC(p)串联信道的容量变化情况，随着级联次数的增加，信道容量逐渐减小，值得注意的是，当BSC的错误传输概率p 很小时这种减小并不大，实际数字通信系统网中二元对称信道的p一般在10-6以下。所以，若干次串接后信道容量的减少并不很明显，仍可保持一定的数值。


以上的结论都是在单符号离散无记忆信道中加以讨论和证明的。对于输入和输出都是随机序列的一般离散信道，数据处理定理仍然成立。在一般通信系统中，信源序列S经过编码模块形成X，然后经过信道输出Y，再经过译码模块得到Z。其中，噪声信道的输出矢量Y中所包含信源序列S的平均信息量大于数据处理后所估算的矢量Z中所包含信源序列S的平均信息量。这一点在理论上是正确的，但并不说明不需要进行数据处理。在实际应用中往往为了获得更有用和更有效的信息，还是需要进行适当的数据处理的。






3．4连续信道及其容量

连续信道强调在其中传输的信号幅度连续取值，即考察某时刻信道的输入与输出时，以连续型随机变量X和Y表示，若考察若干离散时刻信道的输入与输出，则以连续型随机序列X=(X1X2…XN)和Y=(Y1Y2…YN)表示。

3．4．1基本连续信道

基本连续信道就是单符号连续信道，输入和输出以单个连续型随机变量表示，如图3．4．1

所示。其输入X取值于连续幅度区间［a,b］或实数域R， 输出Y取值于连续幅度区间


图3．4．1基本连续信道

［c,d］或实数域R，输入与输出之间的变换依靠信道的转移概率密度函数p(y|x)联系起来，并满足
∫Rp(y|x)dy=1(3.4.1)

基本连续信道数学模型可以用［X，p(y|x)，Y］表示。其输入信源X为
Xp(x)=(a,b)p(x)或Xp(x)=Rp(x)
∫bap(x)dx=1或∫Rp(x)dx=1
其输出信宿为
Yp(y)=(c,d)p(y)或Yp(y)=Rp(y)
∫bap(y)dy=1或∫Rp(y)dy=1
而信道的传递概率密度函数为p(y|x)，满足式（3.4.1）。

第2章已经介绍了连续分布随机变量的各类微分熵，对连续信道的平均互信息来说，不但它的这些关系式和离散信道下平均互信息的关系式完全类似，而且它保留了离散信道的平均互信息的所有含义和性质，只是表达式中用连续信源的微分熵替代了离散信源的熵。可以将3．2．2节中的平均互信息引入描述两个单符号连续分布随机变量之间的平均互信息： 
I(X; Y)=Rp(xy)logp(x|y)p(x)dxdy=h(X)-h(X|Y)(3.4.2)
I(X; Y)=Rp(xy)logp(y|x)p(y)dxdy=h(Y)-h(Y|X)(3.4.3)
I(X; Y)=Rp(xy)logp(xy)p(x)p(y)dxdy=h(X)+h(Y)-h(XY)(3.4.4)
可见，连续信道的平均互信息与各种微分熵之间的关系和离散信道的相应关系是一致的，同样单符号连续信道的信息传输率R=I(X; Y)(比特/自由度)。其信道容量为
C=maxp(x)I(X; Y)=maxp(x)［h(Y)-h(Y|X)］(比特/自由度)(3.4.5)
当扩展到多维连续信道时也能得到类似结论。



图3．4．2连续加性信道

下面考虑连续加性信道，其输入、输出和噪声分别是连续型随机变量X、Y和n，且有Y=X+n，如图3．4．2所示。

定理3．4．1对于加性噪声信道，有
p(y|x)=p(n)，h(Y|X)=h(n|X)=h(n)
式中： p(n)、h(n)分别为噪声源的概率密度函数和微分熵。

证明： 由加性信道特点做坐标变换，X=X，n=Y-X。

再根据随机向量变换的联合概率密度函数计算方法，有
p(xy)=p(xn)(X,n)(X,Y)=p(xn)XXXYnXnY
=p(xn)10-11=p(xn)
由于信道输入X与噪声n是统计独立的，可进一步得到
p(xy)=p(x)p(n)
因此
p(n)=p(xy)p(x)=p(y|x)
进一步代入微分熵计算公式，并利用坐标变换dxdy=dxdn，可得
h(Y|X)=-Rp(xy)logp(y|x)dxdy
=-Rp(xn)logp(n)dxdn
=-∫∞-∞p(x)dx∫∞-∞p(n)logp(n)dn
=h(n)［证毕］
定理3．4．1揭示了加性信道的一个重要性质，即信道的转移概率密度函数就是噪声的概率密度函数，同时噪声熵即为噪声源的微分熵。

基于此，结合式（3.4.3）和式（3.4.4）可得单符号加性信道［X，p(y|x)，Y］的信息传输率和信道容量分别为
R=I(X; Y)=h(Y)-h(n)(比特/自由度)
C=maxp(x)I(X; Y)=maxp(x)［h(Y)-h(n)］
=maxp(x) h(Y)-h(n)(比特/自由度)
由于噪声n与输入X统计独立，因此加性信道中h(n)与p(x)无关，即改变输入X的概率分布只能影响h(Y)，因此求加性信道的信道容量就是求某个最佳输入概率密度p*(x)使h(Y)达到最大。

对于单符号加性连续信道，若加入信道的噪声概率密度函数服从高斯分布(正态分布)，该信道称为加性高斯信道。这是在通信工程中最为常用的具有实输入/输出的噪声信道模型。

设信道叠加的噪声n是均值为零、方差为σ2的一维高斯噪声，则其概率密度函数为
p(n)=12πσexp-x22σ2
噪声熵为
h(n)=12log(2πeσ2)
因此，单符号加性高斯信道的信道容量为
C=maxp(x) h(Y)-h(n)=maxp(x) h(Y)-12log(2πeσ2)
可见，只有h(Y)与输入信号的概率密度函数p(x)有关。当信道输出信号Y的平均功率限制在Po时，由第2章的微分熵性质知，若Y是均值为零的高斯变量，其熵h(Y)为最大。

对于加性信道Y=X+n而言，输出信号的均方值为
E(Y2)=E［(X+n)2］=E(X2)+2E(X)E(n)+E(n2)
平稳随机过程的均方值就是其平均功率。而且在一般通信系统的研究中，常假设输入信号和噪声都是均值为0的随机过程，此时信号的方差就等于其平均功率，即信道的平均噪声功率Pn=σ2，而输出信号功率Po等于输入信号功率Ps与噪声功率Pn之和，即
Po=Ps+Pn
则输入信号平均功率受限意味着输出平均功率也受限，如限制在Po。在此条件下，只有当输出信号Y服从高斯分布时，h(Y)才能取得最大值，即
max h(Y)=12log(2πePo)
因此，单符号加性高斯信道的信道容量为
C=12log(2πePo)-12log(2πeσ2)
=12logPoσ2
=12log1+Psσ2=12log1+PsPn(比特/自由度)(3.4.6)
最佳输入分布p*(x)是均值为0、方差(平均功率)为Ps的高斯分布。

3．4．2多维连续信道

多维连续信道输入是N维连续型随机序列X=(X1X2…XN)，输出是N维连续型随机序列Y=(Y1Y2…YN)，信道传递概率密度函数p(y|x)=p(y1y2…yN|x1x2…xN),满足
R…∫Rp(y1y2…yN|x1x2…xN)dy1dy2…dyN=1
式中： R为实数域。

用［X，p(y|x)，Y］来描述多维连续信道。与离散无记忆信道的定义一样，若连续信道在任一时刻输出的变量只与对应时刻的输入变量有关，与以前时刻的输入、输出变量无关，也与以后的输入变量无关，则此信道为无记忆连续信道。满足连续无记忆信道的充要条件：
p(y|x)=p(y1y2…yN|x1x2…xN)=∏Ni=1p(yi|xi)(3.4.7)
一般情况，式（3.4.7）不满足，也就是多维连续信道任何时刻的输出变量与其他任何时刻的输入与输出变量一般都是相关的，则此信道称为连续有记忆信道。

由式（3.4.2）~式（3.4.5）推广可得多维连续信道的平均互信息及信道容量：
I(X; Y)=h(X)-h(X|Y)=Rp(xy)logp(x|y)p(x)dxdy（3.4.8）
I(X; Y)=h(Y)-h(Y|X)=Rp(xy)logp(y|x)p(y)dxdy(3.4.9)
I(X; Y)=h(X)+h(Y)-h(XY)=Rp(xy)logp(xy)p(x)p(y)dxdy(3.4.10)
C=maxp(x)I(X; Y)=maxp(x)［h(Y)-h(Y|X)］(3.4.11)
同理，多维加性信道的输入、输出及噪声为随机序列形式： 
X=(X1X2…XN)，Y=(Y1Y2…YN)，n=(n1n2…nN)
则其信息传输率和信道容量分别为
R=I(X; Y)=h(Y)-h(n)(比特/自由度)
C=maxp(x)I(X; Y)=maxp(x)［h(Y)-h(n)］(比特/自由度)（3.4.12）













3．5波形信道与香农公式

波形信道的输入是随机过程{x(t)}，输出也是随机过程{y(t)}。实际波形信道的带宽总是受限的，所以在有限观测时间内满足限频F、限时T的条件。根据时间采样定理可将波形信道的输入{x(t)}和输出{y(t)}的随机过程信号离散化，转换成N维随机序列X=(X1X2…XN)和Y=(Y1Y2…YN)，这样波形信道就可转化成多维连续信道描述，如图3．5．1所示。



图3．5．1波形信道及其与多维连续信道关系


故而可得波形信道的平均互信息为
I(x(t); y(t))=limN→∞I(X; Y)
=limN→∞［h(X)-h(X|Y)］
=limN→∞［h(Y)-h(Y|X)］
=limN→∞［h(X)+h(Y)-h(XY)］(3.5.1)
一般情况下，波形信道都是研究其单位时间内的信息传输率，即信息传输速率Rt。设{x(t)}和{y(t)}的持续时间为T，波形信道的信息传输速率和单位时间信道容量为
Rt=1TI(X; Y)=1TlimN→∞［h(Y)-h(Y|X)］ (b/s)
Ct=maxp(x)Rt=maxp(x)1TlimN→∞［h(Y)-h(Y|X)］(b/s)(3.5.2)
式中： p(x)为输入序列X的概率密度函数。

若研究加性信道，由定理3．4．1对于加性噪声信道，有加性信道的噪声熵h(Y|X)就是噪声源的熵h(n)。结合式（3.5.2）可得一般加性波形信道单位时间的信道容量为
Ct=maxp(x)1TlimN→∞［h(Y)-h(n)］(b/s)(3.5.3)
由于在不同限制条件下连续随机变量有不同的最大微分熵取值，所以由式（3.5.2）和式（3.5.3）知，加性信道的信道容量C取决于噪声的统计特性和输入随机矢量X所受的限制条件。对于一般通信系统，无论是输入信号还是噪声，它们的平均功率或能量总是有限的。所以本节只讨论在平均功率受限的条件下波形信道的信道容量。

3．5．1带限高斯白噪声加性波形信道的信道容量

在模拟通信系统中最常用的信道模型是高斯白噪声加性（Additive White Guassian Niose，AWGN)信道。其输入和输出分别是随机过程{x(t)}和{y(t)}，信道噪声是加性高斯白噪声{n(t)}，其均值为零，单边带功率谱密度为N0，所以输出信号满足{y(t)}={x(t)}+{n(t)}。另外，实际信道的频带宽度总是有限的，设其带宽为W。这样，信道的输入、输出信号和噪声都是频带受限的随机过程。进一步假设输入与输出信号的持续时间为T。(需要说明的是，根据时频域物理定律，持续时间有限的信号，其频带无限宽； 反之，频带宽度有限的信号，其持续时间必然无限长。因此，既限频带又限时长的信号是物理不可能的，但如果信号的主要能量集中在带宽W内，这一假设不会造成太大的误差。)

根据奈奎斯特采样定理，一个频带受限于W内的信号可以通过2W采样率得到的样本唯一表示，由于信号持续时间为T，因此这个波形信道可以通过采样变成一个时间离散化2WT维的连续信道，即以自由度为N=2WT的随机序列形式处理，如图3．5．2所示。由于是加性信道，所以随机序列信道也满足Y=X+n。



图3．5．2带限高斯白噪声加性信道变换成N个独立并联高斯加性信道


因为信道的频带是受限的，所以加入信道的噪声成为带限高斯白噪声。而低频带限高斯白噪声的各样本值彼此统计独立，所以限频的高斯白噪声过程可分解为N维统计独立的随机序列，其中每个分量ni都是均值为零，方差为
σ2ni=Pni=σ2=N0WT/(2WT)=N0/2（3.5.4）
可得N维的联合概率密度为
p(n)=p(n1n2…nN)=∏Ni=1p(ni)=∏Ni=112πσ2e-n2i2σ2

对加性信道来说，若上式成立，意味着信道是无记忆的。那么，随机序列信道就可等效成N个独立高斯加性信道的并联。结合式（3.4.6）及并联信道容量计算方法可得等效信道容量为
CN=∑Ni=112log1+PsiPni
由式（3.5.4）可得高斯白噪声的每个样本值的方差σ2ni=Pni=N0/2。而信号的平均功率受限为Ps，T时间内总平均功率为PsT，每个信号样本值的平均功率为(PsT)/(2WT)=Ps/2W。所以可得［0，T］时刻内信道的信道容量为
CN=N2log1+Ps/2WN0/2=N2log1+PsN0W(比特/N个自由度)
又因为在单位时间(1/T)内采集到2W个信道符号，归一化后得到带限AWGN信道单位时间信道容量为
Ct=1TCN=Wlog1+PsN0W=Wlog1+PsPn（b/s）(3.5.5)
这就是著名的香农信道容量公式（简称香农公式）。式中的对数取以2为底。它给出了频带受限、平均功率受限的AWGN信道的信道容量计算方法。当信道输入信号是平均功率受限的高斯分布信号时，信息传输率才达到此信道容量。

例3．5．1给定某平均功率受限的AWGN信道，带宽为4MHz。

(1) 若输入信号与噪声的平均功率比PsPnSNR为7，求其信道容量。

(2) 若SNR降为3，带宽需调整为多少，才能达到与(1)相同的信道容量？

(3) 若带宽为3MHz，求达到与(1)同样信道容量的SNR。

解： 
Ct=Wlog(1+SNR)=4×106log(1+7)=12(Mb/s)
W=Ctlog(1+SNR)=12×106log(1+3)=6(MHz)
SNR=2Ct/W-1=212/3-1=15
一些实际信道是非高斯波形信道，对于平均功率受限非高斯加性信道，其信道容量的精确计算一般较困难。但根据平均功率受限条件下的最大熵定理，加性信道在噪声服从高斯分布时噪声熵最大，即高斯加性信道是平均功率受限条件下的最差信道。所以，香农公式可适用于其他波形信道，由其得到的值是加性非高斯波形信道的信道容量的下限值。

3．5．2香农公式的意义与启发

香农公式是平均功率受限下的带限AWGN信道的信道容量计算公式，从式中可以看出，香农公式把信道的统计信息参量(信道容量)和信道的实际物理量(频带宽度W、信噪功率比Ps/Pn等)联系起来。它表明带限AWGN信道的信道容量Ct与带宽W、信号平均功率Ps以及噪声功率谱密度N0有关。香农公式也建立了带宽W、信噪比Ps/Pn、信道容量Ct三者之间的制约关系。下面分析在不同情况下由香农公式得到的一些重要结论，反映了通信系统优化设计中的一般规律。

1．  增大信道容量的一般方法

（1) 信噪比不变，扩展频带宽度W也可增大信道容量Ct

由式（3.5.5）可见，信道容量与所传输信号的有效带宽成正比，信号的有效带宽越宽，信道容量越大。如通信系统构建中不断开发新的传输媒体，有线通信中从明线(150kHz)、对称电缆(600kHz)、同轴电缆(1GHz)到光纤(25THz)； 无线由中波、短波、超短波到毫米波、微米波。又如，采用信道均衡技术开辟可传输的频带等。

但需要注意的是，噪声功率Pn=N0W，所以随着带宽的增大，噪声功率也会变大，信噪比随之减小，又使信道容量变小。因此，增加信道带宽W(也就是信号的带宽)，并不能无限制地使信道容量增大。也就是说，当发送信号功率Ps不变时，增加带宽可以在一定程度上增大信道容量。但随着带宽增大趋于无穷时，信道容量将趋于某一极限，如图3．5．3所示。具体推导如下：
limW→∞Ct=limW→∞Wlog1+PsN0W
=PsN0limW→∞WN0Pslog1+PsN0W
令
x=PsN0W
则有
limW→∞Ct=PsN0limx→01xlog(1+x)
又
limx→01xln(x+1)=1
所以有
limW→∞Ct=PsN0loge≈1．44PsN0(3.5.6)
此式说明当频带很宽，或信噪比很低时，信道容量正比于信号功率与噪声功率密度比。此值是加性高斯白噪声信道在无限带宽时的信道容量，它是信息传输率的极限值。



图3．5．3加性高斯白噪声信道容量与带宽关系


（2) 带宽不变，增加信号功率或者提高信噪比，可使Ct增大

信道容量与信道上的信号噪声比有关，信噪比越大，信道容量也越大，但其制约规律呈对数关系。通信工程中很多技术手段目的都是提升系统信噪比，获得大的信道容量。例如，通过提高发送功率、提高天线增益、将无方向的漫射改为方向性强的波束或点波束、采用分集接收等加大信号功率，采用低噪声器件、滤波、屏蔽、接地、低温运行等技术降低噪声功率。

通过增大信号发送功率来增大信道容量在理论上没有上限，如果能使信道输入功率无穷大，那么AWGN信道的容量将为无穷大。但随着信号功率的增加，limPs→∞dCtdPs→0，信道容量增长将越来越慢，如图3．5．4所示。



图3．5．4加性高斯白噪声信道容量与信噪比关系(带宽W=1MHz)


2．  Ct一定时，带宽与信噪比可相互补偿

香农公式把信道的统计信息参量(信道容量)和信道的实际物理量(频带宽度、信噪功率比等)联系起来。它从理论上阐明一个理想通信系统的最大可靠信息传输率可完全由带宽W、传输时间T和信噪功率比Ps/Pn三个物理量确定。在信道容量要求一定时，W、T、SNR三者之间可以互相转换，互相补偿。虽然并未提出具体解决的实际方法，但是指出了努力的方向。

(1) 若传输时间T固定，则扩展信道带宽W就可以降低对信噪比的要求； 反之，带宽变窄，就要增加信噪比。也就是说，可以通过带宽和信噪比的互换而保持信息传输能力不变。

将例3．5．1中在信道容量Ct=12Mb/s时，所需带宽W、信噪比SNR以及输入信号功率Ps的情况列于表3．5．1。由表可以看出： 从情况一到情况二，带宽减少了25%，信噪比需提升1．1倍，输入信号功率必须增加约61%； 从情况一到情况三，带宽增大50%，信噪比可降低57%，输入信号功率随之降低约36%。带宽很小地改变，信噪比或信号功率就有较大的改变。若增加较少的带宽，就能节省较大的信号功率，这在深空通信中是很重要的。



表3．5．1例3．5．1中在Ct=12Mb/s时的W、SNR及Ps




项目带宽W/MHz信噪比SNR输入信号功率Ps


情况一4728×106N0

情况二31545×106N0

情况三6318×106N0

注： Ps=SNR·W·N0。

(2) 如果信噪功率比固定不变，增加信道的带宽W 就可以缩短传送时间T，换取传输时间的节省，或者花费较长的传输时间来换取频带的节省，也就是实现频带和通信时间的互换。

例如，为了能在窄带电缆信道中传送电视信号，往往用增加传送时间的办法来压缩电视信号的带宽，首先把电视信号高速记录在录像带上，然后慢放这个磁带，慢到使输出频率降低到足以在窄带电缆信道中传送的程度。在接收端，将接收到的慢录像信号进行快放，于是恢复了原来的电视信号。

(3) 如果保持频带不变，那么可以采用增加时间T来改善信噪比。

这一原理已被应用于弱信号接收技术中，即所谓积累法。这种方法是将重复多次收到的信号叠加起来。由于有用信号直接相加，而干扰则是按功率相加(噪声是随机的，叠加后会相互抵消； 而信号是相关的，叠加会增强)，因而经积累相加后，信噪比得到改善，但所需接收时间相应增加。如何换取，一般根据实际情况而决定。例如，宇宙飞船与地面通信由于信号与噪声的功率比很小，故着重考虑增加带宽和增加传输时间来换取对信噪比的要求。倘若信道频带十分紧张，则考虑提高信噪比或传输时间来降低对带宽的要求。

3． 香农公式对极低信噪比通信的启发

由香农公式可以发现，当发送信噪比小于1时，信道的信道容量并不等于0，这说明此时信道仍具有传输信息的能力。也就是说，发送信号功率很弱，即便是淹没在噪声中仍有可能进行可靠的通信，这对于卫星通信、深空通信等具有特别重要的意义。同时，该结论也为极低信噪比下的信号检测、隐蔽通信等技术方向奠定理论基础。

4．  Eb/N0与香农限

香农公式给出的信道容量是连续信道中可靠传输的最大信息传输率。是否可以用无限制加大信号有效带宽的方法来减小发射功率，或在任意低的信噪比情况下仍能实现可靠通信？从香农公式中还可以找出了达到无错误(无失真)通信的传输速率的理论极限值，称为香农极限。

若以最大信息速率,即信道容量(Ct=maxRt)来传输信息，又令每传送1bit信息所需的能量为Eb，得总的信号功率Ps=RtEb(当信息传输速率达最大时Ps=CtEb)。代入式（3.5.6）可得
limW→∞Ct=PsN0loge=RtEbN0loge
式中： Eb/N0表示单位频带内传输1bit信息的信噪比，称为归一化信噪比，且有
EbN0=limW→∞CtRtloge
由带宽与信噪比的互换关系可知，Eb/N0的最小值发生在带宽趋于无穷大时，且令此时的信息传输速率达最大，即Rt=Ct，则有
EbN0min=1loge=ln2=-1．6（dB）
这个值称为香农限，它表明可靠传输1bit信息所需要的最小能量为0．693N0。香农限(-1．6dB)是在带宽趋于无穷大时达到的，是在理论上能实现可靠通信的Eb/N0的最小值。

图3．5．5示出了Eb/N0与归一化信息传输速率Rt/W之间的关系。所以在实际通信系统的评估与分析中常用此香农限来衡量实际系统的潜力，以及各种纠错编码性能的好坏。如何达到和接近这个理论极限香农并没有给出具体方案，而这正是通信研究人员所面临的任务。



图3．5．5Eb/N0与Rt/W的关系


小结

平均互信息：
I(X; Y)=H(X)-H(X|Y)（比特/符号）
代表了接收到每个输出符号Y后获得的关于X的平均信息量。
I(X; Y)=∑XYP(xy)logp(x|y)P(x)
I(X; Y)=∑XYP(xy)logP(xy)P(x)P(y)
I(X; Y)=∑XYP(xy)logP(y|x)P(y)

互信息： 
I(x; y)=log1P(x)-log1P(x|y)=logP(x|y)P(x)

平均互信息的性质： 

(1) 非负性：  I(X; Y)≥0，当X与Y统计独立时等号成立。

(2) 极值性： I(X; Y)≤H(X)。

(3) 对称性： I(X; Y)=I(Y; X)。

(4) 与各熵的关系： 
I(X; Y)=H(X)-H(X|Y)
I(X; Y)=H(Y)-H(Y|X)
I(X; Y)=H(X)+H(Y)-H(XY)




(5) 凸函数特性：  I(X; Y)是P(x)的∩型凸函数，I(X; Y)是P(y|x)的∪型凸函数。

序列形式的平均互信息： 
I(X; Y)=I(X1X2…XN; Y1Y2…YN)=H(X)-H(X|Y)=H(Y)-H(Y|X)

(1) 若信道是无记忆的，则存在
I(X; Y)≤∑Ni=1I(Xi; Yi)
(2) 若信源是无记忆的，则存在
I(X; Y)≥∑Ni=1I(Xi; Yi)
(3) 若信源和信道都是无记忆的，则存在
I(X; Y)=∑Ni=1I(Xi; Yi)

信道容量：
maxP(x){I(X; Y)}C
(1) 无噪无损信道： 
C=maxP(x){I(X; Y)}=maxP(x){H(X)}=logr
(2) 有噪无损信道： 
C=maxP(x){I(X; Y)}=maxP(x){H(X)}=logr
(3) 无噪有损信道： 
C=maxP(x){I(X; Y)}=maxP(x){H(Y)}=logs
(4) 对称离散信道： 
C=logs-H(p′1,p′2,…,p′s)
式中： {p′1,p′2,…,p′s}为信道矩阵中的行矢量。

(5) 离散无记忆的N次扩展信道： 
C(N)=maxP(x)I(X; Y)=maxP(x)∑Ni=1I(Xi; Yi)=∑Ni=1Ci=NC
(6) 输入并接信道： 
C≤maxP(x)H(X)
(7) 并用信道： 
C=max∑Ni=1I(Xi; Yi)=∑Ni=1maxI(Xi; Yi)=∑Ni=1Ci
(8) 和信道： 
C=log2∑Ni=12Ci
最佳信道利用率为
Pi(C)=2(Ci-C)
数据处理定理： 对于马尔可夫链X→Y→Z，有
I(X; Z)≤I(X; Y)，I(X; Z)≤I(Y; Z)
串联信道的容量： 
C≤min{C1,C2,…,CN}
式中： Ci(i=1,2，…，N)为各子信道的容量。

连续分布随机变量之间的平均互信息： 
I(X; Y)=Rp(xy)logp(x|y)p(x)dxdy=h(X)-h(X|Y)
I(X; Y)=Rp(xy)logp(y|x)p(y)dxdy=h(Y)-h(Y|X)
I(X; Y)=Rp(xy)logp(xy)p(x)p(y)dxdy=h(X)+h(Y)-h(XY)
单符号连续信道的信道容量： 
C=maxp(x)I(X; Y)=maxp(x)［h(Y)-h(Y|X)］(比特/自由度)
单符号加性高斯信道的信道容量： 
C=12log(2πePo)-12log(2πeσ2)=12logPoσ2
=12log1+Psσ2
=12log1+PsPn(比特/自由度)
式中： Po为输出信号功率； σ2为噪声方差； Ps为发送信号功率； Pn为噪声功率。

多维连续信道的平均互信息及信道容量： 
I(X; Y)=h(X)-h(X|Y)=Rp(xy)logp(x|y)p(x)dxdy
I(X; Y)=h(Y)-h(Y|X)=Rp(xy)logp(y|x)p(y)dxdy
I(X; Y)=h(X)+h(Y)-h(XY)=Rp(xy)logp(xy)p(x)p(y)dxdy
C=maxp(x)I(X; Y)=maxp(x)［h(Y)-h(Y|X)］
多维加性信道的信道容量： 
C=maxp(x)I(X; Y)=maxp(x)［h(Y)-h(n)］(比特/自由度)
一般加性波形信道单位时间的信道容量： 
Ct=maxp(x)1TlimN→∞［h(Y)-h(n)］(b/s)
带限高斯白噪声加性信道单位时间信道容量(香农公式)： 
Ct=1TCN=Wlog1+PsN0W=Wlog1+PsPn（b/s）
式中： Ps为发送信号功率； Pn为噪声功率； Pn=N0W； N0为单边带功率谱密度。

加性高斯白噪声信道在无限带宽时的信道容量：
limW→∞Ct=PsN0loge≈1．44PsN0
香农限： 

理论上能实现可靠通信的Eb/N0的最小值，即
EbN0min=1loge=ln2=-1．6（dB）


习题

3．1设有一离散无记忆信源，其概率空间为
XP(x)=010．60．4
它们通过一干扰信道，信道输出端的接收符号集Y=01，信道矩阵为
P=p(0/0)p(1/0)p(0/1)p(1/1)=56163414
试求： (1) 信源X中事件X1和X2分别含有的自信息。

(2) 收到消息yj(j=1,2)后，获得的关于xi(i=1,2)的信息量。

(3) 输出符号集Y的平均信息量H(Y)。

(4) 信道疑义度H(X|Y)及噪声熵H(Y|X)。

(5) 接收到消息Y后获得的平均互信息。

3．2设有扰离散信道的输入端是以等概率出现的A、B、C、D四个字母。该信道的正确传输概率为1/2，错误传输概率均匀分布在其他三个字母上。验证在该信道上每个字母传输的平均信息量为0．21bit。

3．3设有下述消息将通过一个有噪二元对称信道传送，消息为M1=00,M2=01,M3=10,M4=11，这4种消息在发送端是等概的。试求： 

(1) 输入为M1，输出第一个数字为0的互信息量是多少?

(2) 如果第二个数字也是0，这时又带来多少附加信息?

3．4通过某二元无损信道传输一个由字母A、B、C、D组成的符号集，把每个字母编码成两个二元码脉冲序列，以00代表A,01代表B，10代表C，11代表D，每个二元码元脉冲宽度为5ms。

(1) 不同字母等概出现时，试计算传输的平均信息速率。

(2) 若每个字母出现的概率分别为PA=15,PB=14,PC=14,PD=310,试计算传输的平均信息速率。

3．5设有一批电阻，按阻值分70％是2kΩ，30％是5kΩ； 按功耗分64％是1/8W，其余是1/4W。已知2kΩ阻值的电阻中80％是1/8W，试问通过测量阻值可以平均得到的关于功耗的信息量是多少?

3．6设BSC信道矩阵为
P=23131323
(1) 若P(0)=3/4，P(1)=1/4，求H(X)、H(X|Y)、H(Y|X)及I(X; Y)。

(2) 求该信道容量及其最佳输入分布。

3．7在有扰离散信道上传输符号0和1，在传输过程中每100个符号发生一个错误，已知P(0)=P(1)=1/2，信源每秒内发出1000个符号，求此信道的信道容量。

3．8设有扰离散信道如题3．8图所示，试求此信道的信道容量及最佳输入分布。



题3．8图


3．9求题3．9图所示信道的信道容量及其最佳输入概率分布。



题3．9图


3．10BSC信道矩阵为
P=0．980．020．020．98
设该信道以每秒1500个二元符号的速度传输输入符号，现有一消息序列共有14000个二元符号，并设在这消息中P(0)=P(1)=1/2，试问从信息传输的角度来考虑，10s内能否将这消息序列无失真地传送完。

3．11设一离散无记忆信道的信道矩阵为
P=12120000121200001212000012121200012
(1) 计算信道容量C。

(2) 找出一个长度为2的码，其信息传输率为12log5(5个码字)如果按最大似然译码规则设计译码器，求译码器输出的平均错误概率PE(输入码字等概条件下)。

3．12如果一个统计人员面对转移概率为p(y|x)且信道容量C=maxp(x)I(X; Y)的通信信道，他会对输出做出很有帮助的预处理Y^=g(Y)，并且断定这样做能够严格地改进容量。

(1)  证明他错了。

(2)  在什么条件下他不会严格地减小容量？



题13图

3．13考虑时变离散无记忆信道。设Y1,Y2,…,YN在已知X1,X2,…,XN的条件下是条件独立的，并且条件概率分布为p(y|x)=∏Ni=1p(yi|xi)。


设X=(X1,X2,…,XN)，Y=(Y1,Y2,…,YN)。求C=maxp(x)I(X; Y)。

3．14求下列两个信道的信道容量，并加以比较。

(1) p--εp-ε2εp-εp--ε2ε

(2) p--εp-ε2ε0p-εp--ε02ε

其中p-+p=1。

3．15试计算下述信道的信道容量(以p、q作为变量)： 
P=p-p00pp-0000q-q00qq-

3．16两个串联信道如图3．3．14所示，其输入、输出分别为X、Y、Z，并且满足XYZ是马尔可夫链。试证明若第二信道是无损信道，即H(Y|Z)=0,则得到串联信道I(X; Z)=I(X; Y)。

3．17把n个BSC(p)串联起来，证明该串联信道可以等效为一个BSC，其错误转移概率为12［1-(1-2p)n］，且limn→∞I(X0; Xn)=0(p≠0，1)。

3．18若有两个串联的离散信道，它们的信道矩阵都为
P=000100011/21/2000010
并设第一个信道的输入符号X∈{a1,a2,a3,a4}是等概分布，求I(X; Z)和I(X; Y)并加以比较。

3．19设两连续随机变量X和Y,它们的联合概率密度为均值为零、协方差矩阵为R=σ2ρσ2ρσ2σ2 的正态分布，在ρ分别为0、1、-1的情况下，计算I(X; Y)。

3．20一对独立并列信道，Y1=X1+n1，Y2=X2+n2，其中n1、n2是均值为零、协方差矩阵为σ2100σ22 的正态分布随机变量，并且信号平均功率均受限于2P，又假设σ21>σ22。试求： 

(1) 信号平均功率受限值P取什么值时相当于只有一个噪声方差为σ22的信道。

(2) 要使这一对信道都工作，P该取什么值。

3．21设某一信号的信息传输率为5．6kb/s，噪声功率谱N=5×10-6mW/Hz，在带限B=4kHz的高斯信道中传输，无差错传输需要的最小输入功率P是多少？

3．22一个平均功率受限制的连续信道，其通频带为1MHz，信道上存在白色高斯噪声。

(1) 已知信道上的信号与噪声的平均功率之比为10，求该信道的信道容量。

(2) 若信道上的信号与噪声的平均功率之比降至5，要达到相同的信道容量，信道通频带应该多大？

(3) 若信道通频带减少为0．5MHz，要保持相同的信道容量，信道上的信号与噪声的平均功率比值应该多大？

3．23阅读香农著作A Mathematical Theory of Communication 的PART Ⅱ:  The Discrete Channel With Noise中的第12、13部分，对照本章讲述的基本原理，以自己的理解写一篇文献学习报告，并结合通信技术对理论知识进行一定拓展。

3．24查阅有关MIMO信道容量的文献，完成一篇综合论述报告。

3．25查阅相关资料，完成一篇关于香农公式指导通信技术发展的论文。