第
3 
章　相关分析方
法


本章内容提要

相关分析从对基于LFSR 
的序列密码的分析起步,最早是由Blaser等[1]提出的,但真
正有价值的工作是由Siegenthaler[2]提出的非线性组合生成器的分别征服相关分析,其基本
思想是利用组合函数的输出与输入分量或某些输入分量子集之和的相关性,穷举搜索某个
特定LFSR 
的初始状态或者某几个LFSR 
的初始状态,而各个LFSR 
的初始状态就是非线
性组合生成器的子密钥,这就是最早的相关分析。分别征服(divideandconquer)来源于一
种图论算法,体现了“分而治之”的思想(因此也译为分治),意为将一个待求解的问题分成许
多子问题,然后对每个子问题求解,最后再综合求解。随后,Meier等[3]给出了加速上述分
别征服相关分析的两个算法,即算法
A 
和算法B,称为快速相关分析,其出发点是上述相关
分析的复杂度与LFSR 
的长度成指数关系,因此,这种相关分析只适用于长度较短的
LFSR 
。针对此问题,他们对LFSR 
的抽头数较少的非线性组合序列密码提出了一种使用
概率迭代译码算法的快速相关分析方法,不需要搜索整个LFSR 
的所有可能初始状态,就能
找出正确的初始状态,这个方法是相关分析发展的里程碑。之后,又陆续出现了一系列对相
关分析核心思想的改进方法。例如,Zhang等[4]提出了多步快速相关分析方法,他们指出
, 
以前的工作主要是把LFSR 
的初始状态看成一个整体,并且仅仅使用一种校验等式来进行
译码,但实际上可以充分利用不同种类的校验等式,在不增加渐近复杂度的情况下,逐个部
分地恢复初始状态,这种方法对反馈多项式的汉明重量没有要求和限制;Le 
等[5]基于
Anderson[6]对于采用满足某些密码学性质的滤波生成器的条件相关分析思想提出了条件
相关分析的框架,其核心思想是考察增量函数在特定输出情况下输入变量的相关性。条件
相关分析又被扩展到两种类型的分析,即混成相关攻击(hybirdcorelationatack)和集中
攻击(concentrationatack)[7],这两种分析的目标都是通过条件相关分析和快速相关分析
恢复LFSR 
未知的初始状态。Lu等[8]把条件相关分析扩展为在猜测部分未知输入的情况
下考察向量函数输出的相关性,这里假定部分输入信息服从随机均匀分布,特别地,这个方
法在分析蓝牙二级E0算法时被证明非常有效。在此基础上,Zhang等人[9]发展并提出了基
于条件掩码的条件相关分析方法。

本章主要介绍分别征服相关分析、快速相关分析、多步快速相关分析、条件相关分析和
熵漏分析5种方法。

本章重点

● 
分别征服相关分析方法的基本原理。
● 
快速相关分析方法的适用范围和基本原理。
● 
多步快速相关分析方法的基本思想。
● 
条件相关分析方法的基本思想。
● 
熵漏分析方法的基本思想。
● 
相关免疫阶的发展背景、基本概念和特征。

第
3 
章　相关分析方法

47
3.
1. 
1 
1.3
分别征服相关分析方法

本节主要介绍分别征服相关分析方法的统计模型、基本原理、应用实例和应对措施。

二元加法非线性组合序列密码模型

二元非线性组合生成器由
s 
个线性反馈移位寄存器(LFSR)和一个非线性组合函数组
成。
s 
个LFSR 为非线性组合函数提供随机性较好的序列,通常为最大长度序列,即m-序
列;非线性组合函数主要用来提高密钥序列的线性复杂度。所谓二元加法非线性组合序列
密码是指将二元非线性组合生成器的输出序列作为密钥流或密钥序列,将密钥序列与明文
序列进行逐位模2加后所得的序列作为密文序列的密码,见图3.1。

1.
图3.1 
二元加法非线性组合序列密码

1.
一个密码的密钥量是一个相对的概念,它依赖于密码设计者假定密码分析者知道该密
码的参数的多少。对图3.1所示的密码而言,一般假定密码分析者仅知道如下参数:

1.
(1)足够长的密文序列(使用唯密文攻击方法)。
(2)非线性组合函数f(x)。
(3)所有LFSR 的级数ri(1≤i≤s)。
(4)语言编码及语言统计特性。
假定密码分析者不知道所有LFSR 的初始状态及其联结多项式。如果以Ri 
记F2[x] 
中所有次数为ri 
的本原多项式,那么对密码分析者来说,第
i 
个LFSR 的未知参数有
Ri(2r1)个(要去除每个LFSR 的全零初始状态,因为全零初始状态产生全零序列), 这部

i 

s 
分密钥称为LFSRi 
的子密钥。因此,1.Ri(2ri-1)。如果

图3.1所示的密码的密钥量为Π

i=
1
s
使用穷举搜索密钥攻击方法,那么在最坏的情况下所有ΠRi(2ri-1)个密钥都需要尝试
一
i=1

次。如果r足够大,那么穷举搜索方法所需计算是无法实现的。
这里最关(i) 键的问题是理论上需要多长的密文才能破译这个密码。

2.
1.
分别征服相关分析方法的基本原理

分别征服相关分析是一种唯密文攻击方法。因为Cn 
与Zn 
和Yn 
有关,而Zn 
又与Xin


序列密码分析方法

有关,因而Cn 
间接地与Xi 
有关。这表明在一般情况下Cn 
中必定包含Xi 
的信息,从而含

有LFSRi 
的子密钥的信息。现在有两个问题:一个是密文C1C2…CN 
中含LFSRi 
的子密
钥的信息量由什么参数确定,另一个是如何提取或间接地利用这些信息。

分别征服相关分析方法是利用某些输入xi 
与输出
z 
之间的相关性逐步确定每个
LFSR的子密钥。为此,首先需要根据最大长度序列的统计特性建立一个统计模型,见图3.(i) 2。设函数
f 
的输入xi 
(是由一些相互独立且服从同一分布的随机变量Xi 

nn 

1.
n 
1≤i≤s) 
n 
所产生的,且对所有的
i 
和
n 
都有P(
n 
=0)=P(
n 
=1)=1/2。函数
f 
生成相互独立且
Xi 
Xi 
服从同一分布的随机变量Zn 
=
f 
(
n 
,
n 
,…,
n 
),且对所有的
n 
都有
P 
(Zn 
=0)=

X1 X2 Xs 
1/2。置
P 
(=Xi 
)。再假定明文是一个二元无记忆信源(B

P(Zn 
=1)=Zn n 
=qinary
的输出,且P((i) p0。

MemorylesSource,BMS) Yn 
=0)=


图3.2

1.分别征服相关分析的统计模型
其次,定义Cn 
与Xi 
之间的相关性的一个估计———相关度。

n 

定义3.1 N 
个密文符号C1C2…CN 
1XiLFSR的输出序列,=s)

1.与Xi2…XiN 
(ii1,2,…,
之间的相关度(又称符合度)是一个随机变量α,其定义如下: 
α=(|{
j 
,1,
N 
}||{
j 
,1,2,…,
N 
}|)/N

j|Cj 
=Xi 
j=2,…,-j|Cj 
≠Xi 
j=

Σ(N) (1-2(Cn 
..Xin))/N

=

n=1N=1-2Σ

Cn n 
)/N

(..Xi 

n=1

α 
就是Cn 
与Xin之间的相关性的一个估计
。
Cn 
与Xin之间的符合率
为
Cn 
=Xi 
)n=


pe=P(
n 
=P(Cn 
..Xi 
0) 
=P(Zn=Xi 
P(0)+P(
n 
Yn=

n 
)Yn=Zn 
≠Xi 
)P(1) 
i1-1-p0)1-(i+p0)+2p0i 
因此, 
=qp0+ 
(qi)(=qq

P(Cn 
≠Xi 
)=P(..Xi 
1)1-pe

n 
Cn 
n==

显然,是关于q和p0 的对称函数。pe 越大,说明Cn 
与Xi 
之间的符合率就越大, 
从而密文序列段中含有(i) LFSRi 
的子密钥的信息量就越大。当pe 接近于1时,密文序列段
与对应的LFSRi 
的输出段近似相同,从而说明该密码是极不安全的。从pe 和
α 
的定义和
表达式可以看到,密文序列段C1C2…CN 
中所含LFSRi 
的子密钥的信息量由明文特性p0、
Zn 
和Xi 
的符合率q以及密文长度
N 
所决定。这就回答了本节开头提出的第一个问题。

现在(n) 来讨论随机变(i) 量
α 
的分布。对任意给定的i(1≤i≤s),可将Cn 
..Xi 
(2, 

pe 
n 

nn=1,


第
3 
章　相关分析方法

49
3,…) 视作一些相互独立且服从同一分布的二元随机变量。因而,随机变量β= 
(Cn 
.. 

n=1

Xi 
)服从二项分布,其均值(也称期望值或数学期望)和方差σ2 分别为Σ(N) 

n 
mβ
mβ 
=
N 
(1-peβ 
=Npe1-pe


),σ2 ()(β) 因此,随机变量
α 
的均值mα 
和方差σ2 分别
为


α 

mα 
=1-2()2peα=()/N

1-pe=-1,σ24pe1-pen 
ni=1,s) 
n 
=0)=

设X0 是一个独立于Xi 
(2,…,的随机变量,且相互独立同分布,即P(X0 

P(X0 1)1/2。由于Zn 
与X0 统计独立,所以q0=P(X0)1/2,从而pe=1/2,此
时mα 
=0,
α 
=1/
N 
。

n 
==
n 
Zn 
=
n 
=

σ2 
由中心极限定理可知,当
N 
足够大时,随机变量
α 
服从均值为mα 
、方差为σ2 的正态

α 

分布。

在分别征服相关分析中,首先需要确定LFSRi 
的子密钥。为此,对一个级数为ri 
的
LFSR0(用于检测), 任选一个初态,从Ri 
个可能的反馈多项式中任选一个,由该LFSR0 产
生
N 
个符号,再用这
N 
个符号与
N 
个密文符号一起计算出相关度
α 
的一个确切值α0,它
表现出以下两种情形的假设: 

H1:LFSR0 的这
N 
(>ri)个符号与LFSRi 
所对应的
N 
个符号一致,这种情形对应的
α0 表现的是Cn 
和Xi 
(1≤i≤s)的相关性。
H0:LFSR0 的这(n) N 
(>ri)个符号与LFSRi 
所对应的
N 
个符号不一致(至少有一个不
同), 这种情形对应的α0 表现的是Cn 
和X0 的相关性。

n 

为了对假设进行检验,必须利用相关度α0 的值。为了对检验结果给出一个判决,必须
对两个假设H0 和H1 设定一个判决门限值T,使得当α0<
T 
时,接受H0;当α0≥
T 
时,接
受H1。设H0 所对应的概率密度分布函数为pα|H0(x),H1 所对应的概率密度分布函数为
pα|H1(x), 由中心极限定理可知,当
N 
足够大时,pα|H0是均值为m0=0、方差为σ02=1/
N 
的正态分布函数,即

1 -(2/2σ2

ex-m0)0

pα|H0 
= 

2πσ0
pα|H12pe-1=4pe1-pe


是均值为m1=1、方差为σ2()/
N 
的正态分布函数,即

1 -(2/2σ2

ex-m1)1

pα|H1 
= 

2πσ1 
当qi 
=1/2或p0=1/2时,pe=1/2。此时,pα|H0=pα|H1,在这种情形下,无法进行
判决。

假设检验的计算工作量依赖于错误判决的数目。错误判决分为两类:一类是由事件
α≥T|H0所引起的,称它为假真错误,即把假的参数判决为真的;另一类是由事件α<T|H1 
所引起的,称它为真假错误,即把真的参数判决为假的。这些错误判决的次数主要由密码体
制自身的参数p0 和qi(即密码本身的强度)以及使用的密文长度决定。我们主要感兴趣的
是假真错误的概率P(Pf,

α≥T|H0)
概率P(Pm, 
=但是为了确定判决门限值,还必须考虑真假错误的
=

α<T|H1)其中, 

Pf=∫∞ pα|H0(x)dx,Pm=∫
T 
pα|H1(x)dx 

T-∞


50 序列密码分析方法 
引入如下函数(称为错误函数): 
Q(x)= 1
2π∫∞ 
xe-y2/2dy 
则有
Pf=Q (|T N |) , Pm =Q (2pe -1)-T 
2 pe(1-pe) N é
. êê
ù
. úú 
记γ0= (2pe-1)-T 
2 pe(1-pe) N ,于是有
T N = N (2pe -1)-γ02 pe(1-pe) 
从而有
Pm =Q(|γ0|), Pf=Q ( N (2pe -1)-2γ0 pe(1-pe) ) 
算法3.1.1给出了攻击图3.1.1所示的序列密码的分别征服相关分析方法。
算法3.1.1 
第1步:由函数f 确定概率qi(i=1,2,…,s),由明文编码和语言统计特性确定p0,并
计算符合率pe=1-(p0+qi)+2p0qi。
第2步:选定Pm,由关系式Pm=Q(|γ0|)确定γ0,从而假真错误概率仅仅是密文个数
N 的函数。
第3步:确定LFSRi 的子密钥。选择Ri 个可能的反馈多项式中的一个,并任选一个
初始状态,进而生成一个周期为2ri -1的最大长度序列{Si}。对{Si}的2ri -1个可能位置
中的每一个位置和N 个密文符号计算相关度α,对每个事件α≥T ,假定所使用的反馈多项
式和位置正确,从而LFSRi 的子密钥被确定。
由于事件α≥T|H0 以概率Pf 发生,所以这里的判决可能是错误的。因此,对于使α≥ 
T 的所有位置,需要用新密文段进行附加检测。
如果对所有的2ri -1个位置,H1 均被拒绝,则可认为选择的反馈多项式不对。当然, 
也有可能出现多项式是正确的情形,这种事件α<T|H1 发生的概率Pm 事先可以控制得
很小。因此,在Ri 个可能的反馈多项式中选择一个新的,再重复上述过程。在最坏的情况
下,所有2ri -1个位置和所有可能的Ri 个反馈多项式都需要被检测,因而LFSRi 的子密
钥大约需Ri2ri 次检测。
假真错误(α≥T|H0)的次数(从而所需要的检测次数)依赖于所使用的密文符号的个
数N 。如果选择N1 使得Pf=1/Ri2ri ,那么在所有的约Ri2ri 个基本检测中,假真错误的
次数的期望值为1,并且要找到LFSRi 的子密钥所需的全部检测次数约为Ri2ri 。选择
N >N1一般不能降低需要的检测次数。
可证明,Q(x)满足如下关系: 
( 2πx ) -1e-x2 
2 (1-x2)<Q(x)< ( 2πx ) -1e-x2 
2 , x ≥0 
显然使用Q(x)的上界函数和下界函数中的任何一个即可得到N1 的精确估计,但遗憾
的是,它们两个都不便于使用。现在利用另一个上界函数Q(x)<12
e-x2/2(x≥0)来估计N1。
由于

第3 章　相关分析方法 51 
Pf= 1 Ri2ri =Q ( N (2pe -1)-2γ0 pe(1-pe) ) 
所以
1 Ri2ri <12
e[( N1(2pe-1)-2γ0 pe(1-pe))]2/2 
于是
N1 < 
é
.
êê
2-1/2 ln(Ri2ri-1)+γ0 pe(1-pe) 
pe -12 
ù
.
úú 
2 
上式中的上界可以近似地用来估计分别征服相关分析中攻击每个LFSRi 的子密钥所
需要的密文符号个数。由于0≤ pe(1-pe)≤1/2和ln(Ri2ri-1 )随Ri 和ri 增长得很
慢,因而,N1 近似地随12
-pe 
.
è .
.
. ÷
-2
增长。
由上述的讨论过程可知,当图3.1.1所示的序列密码的非线性组合函数与其某些输入
分量存在相关性时,特别地,当输出Z 与输入Xi 相关时,相关分析方法利用这种相关性可
通过大约Ri2ri 次检测独立于LFSRj(j=1,2,…,s,j≠i)找到LFSRi 的子密钥,利用找到
的伪随机生成器的子密钥,可将其密钥搜索量从Πs 
i=1
Ri(2ri -1)降低到大约Σs 
i=1
Ri2ri 。
3.1.3 分别征服相关分析方法的应用实例
Geffe序列生成器是Geffe于1973年提出的[10],原始的Geffe序列生成器可描述为C= 
A1A2....A1A3,其中A1、A2 和A3 是3个m-序列,已知其反馈多项式分别为f1(x)=1.. 
x4..x39、f2(x)=1..x3 ..x20 和f3 (x)=1..x3 ..x17,但3 个寄存器的状态未知,见
图3.1.3。
图3.1.3 Geffe序列生成器
虽然Geffe序列生成器生成的序列具有周期长、线性复杂度高、统计特性好等许多优
点,但该序列生成器是密码学上弱的,针对该序列生成器已有很多分析方法。本节以Geffe 
序列生成器为例,说明应用分别征服相关分析方法分析密码算法的过程。
Geffe序列生成器的非线性组合函数可表示为
f(x1,x2,x3)=x3 ..x1x2 ..x1x3 =x1x2 ..x-
1x3

52 序列密码分析方法 
对Geffe序列生成器,参数qi(i=1,2,3)分别为q1=p(f(x)=x1)=0.5、q2=p(f(x)= 
x2)=0.75和q3=p(f(x)=x3)=0.75。分别征服相关分析方法无法攻击LFSR1,然而,在
利用算法3.1.1找到LFSR2 和LFSR3 的子密钥部分后,基于该密码的特点,可通过A2 和
A3 来确定LFSR1 的子密钥。实际上,这里也渗透了一种分析方法,我们应掌握这种分析
技巧。由
于
x1i
= 
ci, x2i
=1∧x3i
=0 
ci, 
x2i
=0∧x3i
=1 
因此,当A2、A3 确定之后,上述关系式就给出了A1 与C 的相关性。但P (x2i 
..x3i 
=1)= 
12
,所以利用C 的一个长为k 位的截段就可以确定A1 的s=k/2位:x1i 
1 ,x1i 
2 ,…,x1i
s 。为
了利用这些位来计算A1 的初态,设α 是f1(x)的互反多项式f1(x)的一个根,并将A1 的
输出位表示成如下形式(利用定理1.4.1): 
x1i
=Tr(βαi), β ∈F239 
因此,如果对某个ik 有αik =c0,k ..c1,kα..c2,kα2..…..c38,kα38(这里使用的是第二种递归关
系式),那么就可以得到线性方程c0,kx10 
..c1,kx11 
..…..c38,kx1 38=x1i
k 来制约A1 的初态: 
s10
=(x10
,x11
,…,x1 38) 
记M =(cj,k)39×s,则有
(x10
,x11
,…,x1 38)M =(x1i 
1 ,x1i 
2 ,…,x1i
s ) 
从M 中任取一个39阶非奇异子方阵,都可利用这一关系式解出A1 的初态s10
。当s=49 
时,在M 中可以找到这样一个非奇异子方阵的概率在99%以上。由此可见,当A2、A3 均
已确定时,为了确定A1,利用已知的一个100b长的截取段已足够了。
3.1.4 应对分别征服相关分析方法的措施
由3.1.2节中的分析过程可知,要想让分别征服相关分析方法对非线性组合序列密码
不可行,必须使得N1 很大;而要使N1 很大,必须使得pe 接近1/2。特别地,当qi 接近1/2 
时,pe 就接近1/2。因此,得到了选择非线性组合密码函数的一条准则。
准则3.1.1 要使非线性组合序列密码可抵抗分别征服相关分析方法,必须尽可能地选
择使得所有qi 接近1/2的非线性组合函数。
为了对抗分别征服相关分析方法,Siegenthaler提出了布尔函数的相关免疫阶的概
念[11],用于度量和刻画非线性组合序列密码抵抗分别征服相关分析的能力。当准则3.1.1 
中的所有qi=1/2时,就是Siegenthaler提出的1阶相关免疫的概念。自从相关免疫阶这个
概念提出之后,人们对其进行了大量系统、深入的研究[12-15],包括结构特征刻画、构造、计数
以及次数与相关免疫阶的折中关系等。
定义3.1.2 设f(x):F2n 
→F2,x1,x2,…,xn 是F2 上的独立的、均匀分布的随机变
量,如果对任意的(a1,a2,…,am )∈Fm
2 (m ≤n)及a∈F2,都有
p(f =a,xi1 =a1,xi2 =a2,…,xim =am )= 1 
2mp(f =a) 
则称f 与变量xi1 ,xi2 ,…,xim 统计无关。如果f 与x1,x2,…,xn 中的任意m 个变量都统

第3 章　相关分析方法 53 
计无关,则称f 是m 阶相关免疫的。
特别地,如果f 既是平衡的又是m 阶相关免疫的,也称f 是m 阶弹性的。
定理3.1.1给出了f 与其变量xi1 ,xi2 ,…,xim 统计无关的一些等价条件。
定理3.1.1 设f(x)如定义3.1.2中所述,则下列3个条件等价: 
(1)f(x)与变量xi1 ,xi2 ,…,xim 统计无关。
(2)对任意的w =(0,…,wi1 ,…,wi2 ,…,wim ,…,0)∈Fn2
,1≤W H (w )≤m ,f(x)与
w ·x 统计无关。
(3)对任意的w =(0,…,wi1 ,…,wi2 ,…,wim ,…,0)∈Fn2
,1≤W H (w )≤m ,f(x)+ 
w ·x 是平衡的。
证明:(1).(2)。显然成立。
(2).(3)。设对任意的w =(0,…,wi1 ,…,wi2 ,…,wim ,…,0)∈Fn2
,1≤W H(w )≤m , 
f(x)与w ·x 统计无关,则对任意的i∈F2,有
p(f(x)+w ·x =i)= Σa∈F2
p(f(x)=a,w ·x =i-a) 
= Σa∈F2
p(f(x)=a)p(w ·x =i-a) 
=12
Σa∈F2
p(f(x)=a)=12 
从而有, 
W H(f +w ·x)=|{x ∈Fn2
|f(x)+w ·x =1}|=2n ×12=2n-1 
故f(x)+w ·x 是平衡的。
(3).(1)。设对任意的w =(0,…,wi1 …,,wi2 ,…,wim ,…,0)∈Fn2
,1≤W H(w )≤m , 
f(x)+w ·x 是平衡的。对任意的a,a1,a2,…,am ∈F2,记
A =(a,a1,a2,…,am ) 
F(x)=(f(x),xi1 ,xi2 ,…,xim ) 
NA =|{x ∈Fn2
|F(x)=A}| 
Na =|{x ∈Fn2|f(x)=a}| 
因为
Σ x∈Fn2
Σ y∈Fm2+1
(-1)A·y+F(x)·y = Σ y∈Fm2+1
(-1)A·y Σ x∈Fn2
(-1)F(x)·y 
=2n + Σ y∈Fm2+1\{0}(-1)A·y Σ x∈Fn2
(-1)F(x)·y 
利用假设条件可知,当y≠(0,0,…,0),(1,0,…,0)时,有
Σ x∈Fn2
(-1)F(x)·y =0 
所以
Σ x∈Fn2
Σ y∈Fm2+1
(-1)A·y+F(x)·y =2n + (-1)a Σ x∈Fn2
(-1)f(x) 
=2n + Σ x∈Fn2
(-1)f(x)+a =2Na

54 序列密码分析方法
又
Σ x∈Fn2
Σ y∈Fm2+1
(-1)A·y+F(x)·y = Σ x∈Fn2
Σ y∈Fm2+1
(-1)(A+F(x))·y =NA ·2m+1 
故由上述两式可得NA ·2m =Na ,即 
p(f =a,xi1 =a1,xi2 =a2,…,xim =am ) 
= 1 
2mp(f =a)=p(f =a)p(xi1 =a1)…p(xim =am ) 
由A 的任意性可知,f(x)与变量xi1 ,xi2 ,…,xim 统计无关。
引理3.1.1 设f(x)如定义3.1.2中所述,f(x)与变量xi1 ,xi2 ,…,xim 统计无关,则
W H(f)=2mk0,k0 为非负整数。
证明:因为f(x)与变量xi1 ,xi2 ,…,xim 统计无关,因此, 
P(f =1|xi1 ,xi2 ,…,xim )=P(f =1) 
而
P(f =1|xi1 ,xi2 ,…,xim )=
W H(f') 
2n-m 
P(f =1)=
W H(f) 
2n 
所以
W H(f) 
2n-m =
W H(f) 
2n 
即
W H(f)=2mW H(f')=2mk0 
其中f'表示给定xi1 =ci1 ,xi2 =ci2 ,…,xim =cim 的条件下,f 关于n-m 个变量{x1,x2,…, 
xn}\{xi1 ,xi2 ,…,xim }的函数,k0=W H(f')。
Walsh变换(也称Walsh谱)是研究布尔函数的一个强有力的工具。下面给出相关
概念。定
义3.1.3 设x=(x1,x2,…,xn ),w =(w1,w2,…,wn )∈Fn2
,x 和w 的点积定义为
w ·x=w1x1..w2x2..…wnxx ∈F2。n 个变量的布尔函数f(x)的Walsh变换定义为
Sf (w )=2-n Σ x∈Fn2
f(x)(-1)w·x 
其逆变换为
f(x)= Σ x∈Fn2
Sf (w )(-1)w·x 
上式中将f(x)视作实数,求和是指实数求和。f(x)的循环Walsh谱定义为
Sf (w )=2-n Σ x∈Fn2
(-1)f(x)(-1)w·x 
其逆变换为
f(x)=12
-12
Σ x∈Fn2
S(f)(w )(-1)w·x 
由两种谱的定义,并注意到(-1)f(x)=1-2f(x),直接可推出两种谱有如下关系:

第3 章　相关分析方法 55 
S(f)(w )= 
-2Sf (w ), w ≠0 
1-2Sf (w ), w =0 
这里需要说明的是,有的文献中将f(x)的Walsh变换定义为Hf (w )=2nSf (w )或
H (f)(w )=2nS(f)(w ),二者之间只差一个常数因子2n ,无本质差别,实际应用中究竟选用
哪种定义方式可根据具体应用环境而定。为简单起见,特定的场景下也可省去下标。有的
文献中为了方便起见,也将f(x)的Walsh变换Hf (w )记为f^(w ),即f^(w )=Hf (w )。
给定F:Fn2 
→F2,若将f 的Walsh变换f^定义为
f^(w )=2nSf (w )= Σ x∈Fn2
f(x)(-1)w·x 
则其逆变换为
f(x)=2-n Σ w ∈Fn2
f^(w )(-1)w·x 
再设g:Fn2 
→F2,将f 和y 的卷积(用..表示)定义为
(f ..g)(a)= Σ b∈Fn2
f(b)·g(a ..b),a ∈Fn2 
利用定义可直接证明,卷积和Walsh变换是可转换的,即
这样,为了计算卷积函数(f..g)(a),就可以首先分别完成f 和g 的Walsh变换,然后把它
们相乘,最后使用逆Walsh变换。计算Walsh变换有快速算法[13,14],称之为快速Walsh变
换(FastWalsh Transformation,FWT),FWT 的时间和存储复杂度分别为O (n2n )和
O(2n)。
下面简要介绍快速计算Walsh变换的基本思路。
设f(x)=(f(0),f(1),…,f(2n -1)),Sf (w )=(Sf (0),Sf (1),…,Sf (2n -1)),则
Sf (w )=2-nf(x)Hn 。其中Hn 由下式迭代地定义: 
H0 =[1] 
Hn = 1 1 
1 -1 
é
. êê
ù
. úú 
..Hn-1 = 
Hn-1 Hn-1 
Hn-1 -Hn-1 
é
. êê
ù
. úú 
..表示矩阵的Keronecker积。因为H2n =2nIn ,所以Walsh逆变换为
f(x)=Sf (w )Hn 
设f1(x)和f2(x)分别表示f(x)的前一半和后一半,则
Sf (w )=2-nf(x)Hn =2-n(f1(x)Hn-1 +f2(x)Hn-1,f1(x)Hn-1 -f2(x)Hn-1) 
直至迭代到H0 为止。
由定理3.1.1立即可推出f(x)与变量xi1 ,xi2 ,…,xim 统计无关的谱特征。
定理3.1.2 设f(x)如定义3.1.2中所述,则f(x)与变量xi1 ,xi2 ,…,xim 统计无关,当
且仅当对任意的w=(0,…,wi1 ,…,wi2 ,…,wim ,…,0)∈Fn2
,1≤W H(w)≤m,S(f)(w)=0。
证明:由定理3.1.1可知,f(x)与变量xi1 ,xi2 ,…,xim 统计无关,当且仅当对任意的
w =(0,…,wi1 ,…,wi2 ,…,wim ,…,0)∈Fn2
,1≤W H (w )≤m ,f(x)+w ·x 是平衡的;而
f(x)+w ·x 是平衡的,当且仅当S(f+w ·x)(0)=S(f)(w )=0。定理3.1.2得证。

56 序列密码分析方法
由定理3.1.1和定理3.1.2可得到如下两个定理。
定理3.1.3 设f(x)如定义3.1.2中所述,则下列3个条件等价: 
(1)f(x)是m 阶相关免疫的。
(2)对任意的w ∈Fn2
,1≤W H(w )≤m ,f(x)与w ·x 统计无关。
(3)对任意的w ∈Fn2
,1≤W H(w )≤m ,f(x)+w ·x 是平衡的。
定理3.1.4 设f(x)如定义3.1.2中所述,则f(x)是m 阶相关免疫的,当且仅当对任
意的w ∈Fn2
,1≤W H(w )≤m ,Sf (w )=0。
由定理3.1.4和两种谱之间的关系立即可推出以下定理。
定理3.1.5[12] 设f(x)如定义3.1.2中所述,则f(x)是m 阶相关免疫的,当且仅当对
任意的w ∈Fn2
,1≤W H(w )≤m ,Sf (w )=0。
定理3.1.5即著名的Xiao-Massey定理。
定理3.1.6给出了构造相关免疫函数的一个递归方法。
定理3.1.6 设f1 和f2 是两个n 个变量的m 阶相关免疫函数,令f(x1,x2,…,xn+1)= 
xn+1f1(x1,x2,…,xn)..xn+1f2(x1,x2,…,xn ),则f 是一个有n+1个变量的m 阶相关
免疫函数。次数.0f=max{.0f1,.0f2}+1。
易知,f:Fn2 
→F2 是n-1阶相关免疫函数的充要条件是
f(x)=x1 ..x2 .. … ..xn ..c, c ∈F2 
最后,讨论相关免疫阶和非线性次数之间的关系。
设f(x):Fn2 
→F2 的多项式表示为式(1.4.8)。现在用f(x)的循环Walsh谱来表示
式(1.4.8)中的系数,将由分量下标i1i2…ir 指定的r 维及n-r 维子空间记为
Si1i2…ir ={x ∈Fn2
|xj =0,对所有的j . {i1,i2,…,ir}} 
..Si1i2…ir ={x ∈Fn2
|xj =0,对所有的j ∈ {i1,i2,…,ir}}=S⊥ i1i2…ir 
在式(1.4.8)中,除系数为ai1i2…ir 的项之外,其余各项在Si1i2…ir 上模2求和的结果均为0,因
此,有
ai1i2…ir = Σ x∈Si1i2…ir
f(x)= Σ x∈Si1i2…ir 
12
-12
Σ x∈Fn2
. S(f)(w )(-1)w·x 
è ..
. ÷ 
=-12
Σ x∈Fn2
S(f)(w ) Σ x∈Si1i2…ir (-1)w·x (mod2) 
=-12
Σ x∈Si⊥1i2…ir
S(f)(w )·2r (mod2) 
=-2r-1 Σ x∈Si1i2…ir
S(f)(w ) (mod2) 
(3.1.1) 
..Si1i2…ir 中的w 的汉明重量W H(w )≤n-r。
当f(x):Fn2 →F2 为m 阶相关免疫函数时,如果r≥n-m,则根据定理3.1.4,式(3.1.1)中
仅有S(f)(0),于是
ai1i2…ir =-2r-1S(f)(0)(mod2) 
又
S(f)(0)=2-n(2n -2W H(f))

第 
3 
章　相关分析方法

所以当r≥n-
m 
时, 

r--
n 
r

ai1i2…=-21×2n 
(2-2W 
H)(f))(mod2)=2n+mk0(mod2) 
f)=k0((i) 1air 
=

r 

这里WH(m由引理31可知)。所以当r>n-
m 
时,0。当r=
m 
时,若

2..i1i2…nk0 为奇数,则所有的n-
m 
次项都出现;若k0 为偶数,则所有的n-
m 
次项都不出现。
当
W 
H(f)=2n-1,m≤n-2时,可知k0 为偶数,于是对于r≥n-
m 
都有ai1i2…ir 
=0。
Fn

综上所述,如果f(x):2→F2 是非线性次数为
k 
的
m 
阶相关免疫函数,则k+
m 
≤n。
特别地,当
f 
是平衡布尔函数且m≤n-2时,则k+m≤n-1。这表明
f 
的非线性次数k= 
.0f 
和其相关免疫阶数
m 
之间存在着某种制约关系,因此,在具体构造相关免疫函数时必
须适当折中考虑。目前,消除这种制约关系的办法主要有两种:一种是引进记忆;另一种是
使用广义相关免疫函数。

3.快速相关分析方法
在非线性组合生成器中,当组合函数的输出与某些输入变量的符合率
p 
达到0.

75 时, 
从计算量的角度来说,利用分别征服相关分析方法可破译每个LFSR 的长度
k 
不超过50 的

2 

非线性组合生成器。本节主要介绍两个参数适用范围更广的关于非线性组合生成器的相关
分析方法,即文献[3]中所称的算法A和算法B 
z。
n 
},an 
}假定非线性组合生成器的输出序列为z={
z 
与其中一个LFSR 序列a={的相
关概率p=P(5,则算法A和算法B的目的都是用来确定
a 
的初态。这两个算

n 
=)>0.法都要求反馈的(z) 抽头(a) 数(n) t 
较小。特别地,当p≤0.75 时,要求t<10 。算法A是一个有效的
2c(<1)

指数时间分析方法,其计算复杂度为O(ck 
), 其中
k 
表示LFSR 的长度,依赖于攻击
的输入参数。算法B是一个多项式时间分析方法,其计算复杂度是LFSR 的长度
k 
的多项
式。这两个算法实质上比穷举搜索整个初始状态更快,而且适用于相当长的LFSR(如k= 
1000 或更长)。然而,通过比较可知, 75 左右时, 而当
p 
在

当c.1 且
p 
在0.算法A更好; 

0.5左右时,算法B更有效。这两个算法可应用于已知明文攻击和唯密文攻击。已证明,当
p≤0.75 时,如果较长的LFSR 的抽头数较大( t≥10), 
大约k≥100,则这两个算法都是不可
行的。

1.
2.
3

快速相关分析的统计模型

假定一个二元密钥流生成器的输出序列
z 
与一个LFSR 序列
a 
的相关概率
p 
= 
P(
n 
=
n 
)>0.

za5。LFSR 序列
a 
可通过如下形式的线性递归关系式给出: 
an 
=c1an-1+c2an-2+ 
…+cn-(3.1)

a2.
其中c(x)xk 
(1)是这个关系(k) 式的(k) 反馈多项式。反馈多项式

=c0+c1x+c2x2+…+ckc0=
k 
}2.


的抽头数
t 
等于{c2,…,的非零项的个数。因此,式(1)可表示成如下含t+1 项
的等式: 
c1,cΣ an-103.2.=(3.2)

{i:0≤i≤k,i≠0} 

通过移位序列a,可以观测到,每一个固(c) 定的数字a在式(3.2)的t+1 个位置都出
现,也就是说它同时满足形式为式(3.2)的t+1 个等式。(n) 2.

2.

58 序列密码分析方法
另外,c(x)的每一个多项式倍式都定义了a 的一个线性递归关系式,特别地,对j=2i, 
c(x)j 就是a 的一个线性递归关系式,此时c(x)j=c(xj)。这样就比单纯通过移位能获得
更多的线性关系式,而且这些关系式的抽头数都是t。这一特性很重要,因为算法A 和算法
B的可行性依赖于抽头数。事实上,对于给定的序列z,快速相关分析需要测试所有这些线
性关系式来确定对于给定的n 是否zn 与an 一致。
假定an 是固定的,那么按上述方式获得的线性关系式可写成如下形式: 
L1 =an +b1 
L2 =an +b2 
. 
Lm =an +bm 
ì
.
í
... 
..
. 
(3.2.3) 
这里bi(i=1,2,…,m )恰好是序列a 的t 个不同项的和,m 是获得的线性关系式的个数,其
值在后面确定。
在式(3.2.3)中,对同一下标位置,用序列z 来代替序列a,可得到如下表达式: 
Li =z +yi, i=1,2,…,m (3.2.4) 
这里Li 未必为0。
通过以上分析和相关事实,可以引入一个一般的统计模型。用二元随机变量集{a,b11, 
b12,…,b1t,b21,b22,…,b2t,…,bm1,bm2,…,bmt}代替式(3.2.3)中序列a 的数字,并满足如下
相应的等式: 
a +b11 +b12 + … +b1t =0 
a +b21 +b22 + … +b2t =0 
. 
a +bm1 +bm2 + … +bmt =0 
ì
.
í
... 
..
. 
(3.2.5) 
类似地,用二元随机变量集{z,y11,y12,…,y1t,y21,y22,…,y2t,…,ym1,ym2,…,ymt}表
示式(3.2.4)中序列z 的数字。
两个随机变量集有如下关系: 
P(z =a)=p, P(yij =bij)=p (3.2.6) 
除了式(3.2.5)和式(3.2.6)外,这里假定这些二元随机变量都是相互独立且同分布的,它们
是1或0的概率等于0.5。
对i=1,2,…,m ,可导出如下随机变量: 
bi =bi1 +bi2 + … +bit 
yi =yi1 +yi2 + … +yit 
Li =z +yi 
ì
.
í
.. 
..
(3.2.7) 
设bi 和yi 相等的概率是s,即
s=P(yi =bi) (3.2.8) 
显然,s 独立于i 且是p 和t 的函数,即s=s(p,t)。
s 可通过如下递归关系式来计算: 
s(p,t)=ps(p,t-1)+ (1-p)(1-s(p,t-1)) 
s(p,1)=p (3.2.9)

第3 章　相关分析方法 59 
接下来,考虑随机变量L1,L2,…,Lm 。
由于Li=0暗含着z=a,yi=b 或z≠a,yi≠bi,因此,对给定的h(0≤h≤m )个下标
集合{i1,i2,…,ih},恰好在这h 个对应位置的随机变量等于0(也称满足关系式或关系式成
立)、其他对应位置的随机变量等于1的概率为 
P(L1 =1,…,Li1 =0,…,Li2 =0,…,Lih =0,…,Lm =1) 
=psh(1-s)m-h + (1-p)(1-s)hsm-h (3.2.10) 
不失一般性,假定L1=0,L2=0,…,Lh =0,Lh+1=1,Lh+2=1,…,Lm =1,则由贝叶斯
公式可知,下列结论成立: 
P(z =a|L1 =L2 =… =Lh =0,Lh+1 =Lh+2 =… =Lm =1) 
= psh(1-s)m-h 
psh(1-s)m-h + (1-p)(1-s)hsm-h (3.2.11) 
P(z ≠a|L1 =L2 =… =Lh =0,Lh+1 =Lh+2 =… =Lm =1) 
= (1-p)(1-s)h
s
m-h 
psh(1-s)m-h + (1-p)(1-s)hsm-h (3.2.12) 
实际上,式(3.2.11)给出了当m 个关系式中的h 个关系式成立时,zn =an 的概率,将这
个概率记为p* 。
根据上面介绍的统计模型以及一些事实,考虑一个随机实验。可访问z 和yij 的输出, 
因此,可得到Li=z+yi,而不能访问a 和bij的输出,这是因为在我们的应用中z 和yij对应
给定序列的某些数字,而a 和bij 是指未知的LFSR 序列。特别地,当z 对应固定数字zn 
时,我们希望确定a 对应的固定数字an 。从一个先验概率p=P(z=a)>0.5开始,记h 是
使得Li=0的下标i 的个数。然后根据式(3.2.11)把这个先验概率p=P (z=a)更新为新
的概率p* 。直观上,我们期望p* 在z=a 的情况下增加,而在z≠a 的情况下降低。为了
证实这个观点,对这两种情况分别计算p* 的期望值。
情况1:z=a。
E0[p* ]=E[p* |z =a] 
=Σm 
h=0Ch
m 
psh(1-s)m-h 
psh(1-s)m-h + (1-p)(1-s)hsm-hsh(1-s)m-h (3.2.13) 
情况2:z≠a。
E1[p* ]=E[p* |z ≠a] 
=Σm 
h=0Ch
m 
psh(1-s)m-h 
psh(1-s)m-h + (1-p)(1-s)hsm-hsm-h(1-s)h (3.2.14) 
值得一提的是,由式(3.2.13)和式(3.2.14)可知: 
E[p* ]=pE0[p* ]+ (1-p)E1[p* ]=p 
这暗含着,尽管我们期望这个新的概率p* 在z=a 的情况下增加,而在z≠a 的情况下降
低,但总的期望值是不变的。另外,这里计算的是p* 的均值,因此,式(3.2.14)是正确的。
例3.2.1 设先验概率p =P (z=a)=0.75,t=2,m =20,则可得到E0[p* ]=0.9, 
E1[p* ]=0.3。
事实上,新的概率p* 是h 的一个函数,并且可使得在两种情况下的概率分布有明显的
区别,这将给我们提供了确定z=a 或z≠a 的一个主要准则。

序列密码分析方法

上述统计模型可以推广到非线性关系式的情况,从而可以将非线性关系式扩展到下面
介绍的分析方法中。关键点不是线性而是只有一些数字包括在这些关系式中这一事实。线
性本质的优点是产生的许多关系式(通过移位或迭代平方)的概率对同一数字成立。

本节最后介绍一个常用的、比较典型的统计模型。大多数基于LFSR 的序列密码的分
析往往涉及解决下面这样一个问题:假设攻击者收到了序列z=a..
x 
的一个适当长的截
取段,其中: 

(1)
a 
是一个m-序列,其反馈本原多项式f(x)是已知的。

(2)序列
x 
的代数结构不明,但已知数字0在这个序列中占某种优势(当数字1在这个
序列中占某种优势时,令z'1..zxn 
=则z'=
' 
,在x'中0占某种优势), 即
n 
=
n 
,'1..xn 
, a..
x
有P(xn 
=
5-
=5+ε,xn 
==5ε,


0)0.P(1)0.-ε>0 。称
ε 
为序列
a 
的数字在序列
z 
中所占的
优势,称0.
ε 
为
a 
在
z 
中的失真率。
现在要做的事情是:设法根据上述两点知识还原序
列a,主要是确定其初态。

因此,如果一个二元密钥流生成器的输出序列
z 与
一个LFSR 序列
a 
的相关概率p=P(zn 
=
n 
5,
则
可将这种情况一般化为图3.1的统计模型
a
。
)>0.


2.
2.
其中zn 
=an 
..xn 
,BAS 表示二元非对称信源图3.1 
一个常用的统计模型
(BinaryAsymmetricSource),
P 
(xn 
=0)=
P 
(zn 
=an 
)=p。
a 
是一个二元随机序列且
P(
n 
=0)P(
n 
==5。这样,

=1)0.将要介绍的快速相关分析方法实际上是对这种模型的一种(a) 分析方法。此(a) 外,这种模型也可以用其他分析方法进行分析,如线性校验子分析方法
(见4.可参阅文献[16

2节), 18 ]。

算法A的基本思想及其描述

假定已给定了序列
z 
的长度为
N 
的一个截取段,LFSR 的反馈多项式、长度
k 
和抽头
数t,以及LFSR 的输出序列
a 
与给定序列
z 
的相关概率p=P(
n 
=
n 
)。现在要解决的问

za
题是:找到未知的LFSR 序列a。基本上,这个序列可通过求解由它的任何
k 
个数字构建
的关于初始状态的线性方程组被恢复出来。如果这些方程是线性依赖的,可以选择一些附
加的数字获得一个线性独立的方程组。因此,为了得到序列
a 
的一个估计,我们实际上以
最高的概率
p 
*选择
z 
的
k 
个数字,这等价于选择满足式(3.3)的最多关系式的
k 
个数字。

2.
算法A的基本思想是:通过测试找出正确的数字,即z=
a 
的数字z。具体测试办法是
选择满足更多等式的数字。用这种办法可获得序列
a 
的相应位置的一个估计。在一定的
条件下,这些数字是正确的概率很高,亦即只要对这些数字稍作修改即可。实际上,我们是
利用LFSR 序列
a 
的线性关系式找出正确的数字,即使得z=
a 
的数字。线性关系式可由
反馈多项式来描述。通过对反馈多项式进行迭代平方,对每个数字
a 
可获得一组线性关系
式,每个线性关系式涉及
a 
的
t 
个其他数字。用这种办法获得的关系式的平均数
m 
可由后
面要介绍的式(3.17)计算。

2.
一个固定的数字
z 
至少满足
m 
个关系式中的
h 
个关系式的概率可通过下式来计算: 
2.
2.
3

m 

i 
m-im-

Q(p,m,
= 
Cm 
(psi(1-s)i+ 
(1-p)(1-si) (3.15)

h)Σ s)2.

i=
h 


第3 章　相关分析方法 61 
式(3.2.15)可由式(3.2.10)推出。设R(p,m ,h)表示z=a 且m 个关系式中至少有h 个关
系式成立的概率,则有: 
R(p,m ,h)=Σm 
i=hCi
mpsi(1-s)m-i (3.2.16) 
这样,在给定的m 个关系式中至少有h 个关系式成立的条件下,z=a 的概率为
T(p,m ,h)=R(p,m ,h) 
Q(p,m ,h) 
因此,有Q(p,m ,h)·N 个数字满足至少h 个关系式且正确的概率是T(p,m ,h)。对
固定的p、m ,T(p,m ,h)是h 的递增函数。这样,为了最大可能地找到充分多的(至少k 
个)数字,需要确定使得Q(p,m ,h)·N ≥k 的最大值h。
选择z 中至少满足h 个关系式的数字,并使用这些数字作为a 在相应下标位置的参考
猜测I0,则(1-T(p,m ,h))·Q(p,m ,h)·N 是I0 中被期望的错误数字数。如果这个数
很小,则对I0 稍作修改即可找到a。测试修改I0 时利用了LFSR序列a 相应的段(phase) 
和给定序列z 的相关性。如果其相关性超过了一个适当的门限值,则接受这个状态。
下面来估计可获得的关系式的平均数m ,它是N 、k 和t 的函数。i(i≥0)次迭代平方
操作获得的线性关系式(3.2.3)的长度为2ik,可建立N -2ik 个线性关系式。但必须有
N -2ik≥0,因此i≤log2(N/k)。因为i 是整数,所以i 不能大于log2(N/k)的整数部分。
用[log2(N/k)]表示log2(N/k)的整数部分。因此,可按下列办法估计线性关系式的总量: 
T = Σ [log2(N/k)] 
i=0 (N -2ik)=N ([log2(N/k)]+1)- Σ [log2(N/k)] 
i=0 2ik 
=N ([log2(N/k)]+1)- (2[log2(N/k)]+1 -1)k 
≈N ([log2(N/k)]+1)- (2N/k -1)k 
=N ([log2(N/k)]-1)+k 
因为每一个关系式需要z 的t+1个数字,因此,每个数字的关系式的平均数m 是
T ·t+1 N =([log2(N/k)]-1)(t+1)+k
N (t+1) 
在我们的应用中k
N (t+1).1,因此,上式可简化为
m =m (N ,k,t)≈ log2 
N 
2k 
.
è .
.
. ÷ 
(t+1) (3.2.17) 
算法3.2.1 算法A 
第1步:根据式(3.2.17)确定m 。
第2步:寻找使得Q(p,m ,h)·N ≥k 的最大值h。
第3步:对z 中至少满足h 个关系式的数字进行搜索,并使用这些数字作为a 在相应
下标位置的一个参考猜测I0。
第4步:利用相应的LFSR序列a 与序列z 的相关性,通过测试修改I0,找到正确的
猜测。值
得注意的是,在第1步确定的m 仅仅是一个平均值。一般地,在z 的给定部分中,靠
近中间的数字比靠近边界的数字满足更多的关系式。因此,在中间部分,在正确和不正确的
数字之间有明显的区别是可能的。这就导致了算法3.2.1的一个改进,用下面的第3'步替

62 序列密码分析方法
换第3步。
第3'步:根据式(3.2.11)对z 的给定的数字计算新的概率p* ,并选择k 个具有最高概
率p* 的数字。
在第3步,I0 中错误数字的平均数r-=(1-T(p,m ,h))·k。在合适的条件下(如r-. 
1),第4步是不必要的。
例3.2.2 假定z 的截断长度N =5000,p=0.75,k=100,t=2,则可由式(3.2.17)得到
测试z 的数字的关系式个数m =12。通过计算函数Q (p,m ,h)和T (p,m ,h)可知:要使
Q(p,m ,h)·N =0.02189×5000≈109成立,期望有h≥11个关系式。此时,(1-T (p,m , 
h))×109=0.001855×109≈0.2<1,这说明在这些数字中期望不正确的数字个数小于1,这
样在第3步选择的数字是正确的概率很高。第4步是不必要的。
下面讨论算法3.2.1的计算复杂度。因为第1步至第3步的计算时间是可忽略的,所以
仅仅估计在第4步需要尝试的平均数。假定在第3步找到的数字中恰好有r 个是不正确
的,那么在第4步需要尝试的最大次数为
A(k,r)=Σr 
i=0Ci
k 
对这个公式,存在一个使用二元熵函数的著名估计。二元熵函数的定义如下: 
H (x)= 0, x =0,1 
-xlog2x - (1-x)log2(1-x), 0<x <1 
引理3.2.1[19] 
A(k,r)=Σr 
i=0Ci
k ≤2H (θ)k (3.2.18) 
其中θ=r/k。
在本书的应用中,只有平均数r-=(1-T (p,m ,h))·k 对r 是可达的。对于大的k,r 
大于r-的概率被限定在大约1/2内。因此,用r-代替式(3.2.18)中的r 可获得第4步中尝试
次数的一个估计。这样,算法3.2.1的计算复杂度是O(2ck ),0≤c=H (r-/k)≤1。c=1的
情况对应穷举搜索LFSR的所有状态。然而,在合理的条件下c.1,意味着这个攻击要比
穷举搜索攻击快。
很显然,c 是p、t、N 和k 的一个函数。但事实上,c 仅仅是p、t 和N/k 的一个函数,这
一点可从算法3.2.1的第1步和第2步直观地观察到。在高安全性要求的应用中,不得不考
虑较大的d=N/k,甚至大到106 或更大都是可能的,也是合理的。因此,对不同的但固定
的d=N/k,研究c 作为p 和t 的函数的变化规律是一件很有意义的事情,如d=N/k=102 
或d=N/k=106。
对一个与LFSR序列a 的相关性为p、长度为N 的序列z,a 和z 之间的汉明距离的期
望值为(1-p)·N 。如果d=N/k 很小,则也许有a 的不同的状态具有距离小于或等于
(1-p)·N ,也就是说,对相关问题有多个解。在这种情况下,算法A 也许选择了a 的一个
错误状态。
随着抽头数t 的增加,c=c(p,t,N/k)收敛于H (p),这是由于当t 趋于无穷时,由
式(3.2.9)可知,函数s(p,t)接近1/2。再者,由式(3.2.15)和式(3.2.16)可知,当s=1/2时, 
T(p,m ,h)=R(p,m ,h) 
Q(p,m ,h)=p

第3 章　相关分析方法 63 
这意味着θ=r/k 收敛于1-p。因此,c(p,∞,N/k)=H (1-p)=H (p)。这个极限c= 
H (p)对相关分析的密码学意义是:如果在所有的状态上进行穷举搜索被修改成从最大可
能的错误模式开始搜索(见算法3.2.1的第4步),则它的计算复杂度是O (2ck )而不是
O(2k)。当p=0.75时,c=0.81。
通过计算可以发现以下一些事实,这里值得注意的是本章思考题6是这些事实的基础。
当t=2,p≥0.6时,算法3.2.1比穷举搜索有很大的改进,使用该算法甚至可分析长度为
1000或更长的LFSR。当d=N/k=106,t=2,p >0.67时,所有的c 都小于0.0005。当
t<10时,随着d=N/k 的增加,算法3.2.1有一个实质性的改进。例如,当d=N/k=109, 
p>0.57,t=2时,c=0.408,H (0.57)=0.986。当t≥10,p ≤0.75时,c 十分接近渐近值
H (p),算法3.2.1与(修改的)穷举搜索攻击相比没有本质上的优势,这一事实对可能发生
在实际应用中的所有d=N/k 都成立。
3.2.3 算法B的基本思想及其描述
提出算法B 的动因是如下这样一个事实:如果一个数字仅满足较少的关系式,则条件
概率p* 是很小的。这就导致了修正(也称校正)满足不超过一定数量关系式的数字的方
法。在合适的条件下,可以期望“正确的”的序列是与LFSR 序列a 有较少不同数字的序
列,重复这个过程直到恢复LFSR序列a。
算法B的基本思想是:考虑所有的数字以及它们是正确的数字的概率。开始时我们已
经知道z 与a 对应的数字相等的概率是p,通过考察等式成立的个数,给z 的每个数字赋予
一个新的概率p* ,即zn =an 的概率。实质上,p* 是p 和等式的个数的函数。可以将新的
可变的概率p* 作为每一轮的输入,迭代地进行上述过程。经过若干轮后,z 的所有具有比
某一门限值低的概率p* 的数字都被修正了。在适当的条件下,我们期望不正确的数字的个
数能降低。在这种情况下,重做整个过程若干次后,用新的序列代替z,直到找到LFSR 序
列a 为止。
m 个关系式中至多有h 个关系式成立的概率可按如下公式计算: 
U(p,m ,h)=Σh 
i=0Ci
m (psi(1-s)m-i + (1-p)(1-s)sm-1) (3.2.19) 
再者,zn =an 且m 个关系式中至多有h 个关系式成立的概率可由如下公式给出: 
V(p,m ,h)=Σh 
i=0Ci
mpsi(1-s)m-i (3.2.20) 
类似地,zn ≠an 且m 个关系式中至多有h 个关系式成立的概率为
W (p,m ,h)=Σh 
i=0Ci
m (1-p)(1-s)ism-i (3.2.21) 
因此,U(p,m ,h)·N 是满足至多h 个关系式的z 中数字的期望数。如果这些数字被修
正,则W (p,m ,h)·N 是被正确地改变的数字的个数,V(p,m ,h)·N 是被错误地改变的
数字的个数。正确数字的增量是W (p,m ,h)·N -V(p,m ,h)·N 。定义相对增量如下: 
I(p,m ,h)=W (p,m ,h)-V(p,m ,h) (3.2.22) 
这样,对给定的p 和m ,最佳方式是选择使得I(p,m ,h)达到最大值的hmax作为h。
为了达到最大的修正效果(correctioneffect,也称校正作用),取门限值Pthr为

64 序列密码分析方法
Pthr=12
(p* (p,m ,hmax)+p* (p,m ,hmax +1)) (3.2.23) 
因此,概率为p* <Pthr的数字的个数N w 的期望数为
Nthr=U(p,m ,hmax)·N (3.2.24) 
如果只有少数数字的概率p* <Pthr,那么新的概率分配需要被迭代执行。
算法B的整个攻击过程交替执行如下两个阶段: 
(1)计算阶段。对z 的每个数字分配新的概率p* 。
(2)校正阶段。修正概率为p* <Pthr的数字,并将每个数字的概率重置为原来的值p。
对计算阶段可进行迭代。为此,需要将式(3.2.9)一般化。t 个数字可能有不同的概率, 
分别记为p1,p2,…,pt,则
s(p1,p2,…,pt,t)=pts(p1,p2,…,pt-1,t-1) 
+ (1-pt)(1-s(p1,p2,…,pt-1,t-1)) 
s(p1,1)=p1 
ì
.
í
.. 
..
(3.2.25) 
这个一般化也引发了其他所有公式的一般化,特别是关于p* 的式(3.2.11)的一般化。
大量的实验表明,在这种迭代中,假定迭代数α 是一个很有限的数是合理的。在很多情
况下,α=5是一个合适的选择。
算法3.2.2 算法B 
第1步:根据式(3.2.17)确定m 。
第2步:找到使得I(p,m ,h)达到最大值的h=hmax。如果Imax=I(p,m ,hmax)≤0,则
在计算阶段没有修正效果,即攻击失败;如果Imax>0,则根据式(3.2.23)和式(3.2.24)计算
Pthr和Nthr。
第3步:初始化迭代计数器i=0。
第4步:对z 的每个数字,利用其所满足的关系式的个数计算新的概率p* (计算阶段, 
利用一般化了的式(3.2.11)和式(3.2.25))。确定概率为p* <Pthr的数字的个数N w。
第5步:如果N w<Nthr或i<α(其中α 表示事先限定的迭代数),则给i 加1并转向第
4步。
第6步:修正概率为p* <Pthr的z 的数字并将每个数字的概率重置为原来的值p(校
正阶段)。
第7步:如果有z 的数字不满足基本的反馈关系式(3.2.1),则转向第3步。
第8步:在a=z 时终止。
随后的讨论基于应用算法B进行的模拟,该算法的外循环(第3步至第7步)称作轮
(round),内循环(第4步和第5步)称作迭代(iteration)。在第1轮,可观察到理论上期望
N w≈Nthr,因此,只有第4步和第5步进行一次迭代也许是必要的。在较高次的轮中,错误
(zn ≠an)不再独立于关系式,这样,统计模型现在不能严格地应用。这通过在较高轮中观
察到N w.Nthr被反映出来。由于这个原因,迭代分配新的概率直至有足够多的数字具有概
率p* <Pthr。然而在一些迭代之后,可观察到概率p* 或者很接近0或者很接近1的数字
表现出强烈的两极分化。除去一些数字,这个两极分化变得稳定,意味着不需要再迭代。这
证实了迭代有限的次数α 之后一轮终止。
在执行算法B时,通过例3.2.3观察到,具有a=z 的一些轮终止后获得了一个稳定的

第 
3 
章　相关分析方法

65
修正效果。为了解释这种现象,需要考虑不同轮之间的统计独立性。事实上,我们也不能解

释除第一次迭代外算法B为什么能够成功,也不清楚为什么算法B能够在若干轮后导致一

个解。

可对算法B做一些修改。例如,在第6步,根据在每一轮之后错误的期望数降低的事
实,可将其概率重置为高于原来的值p。然而,模拟结果表明,这样做没有导致算法B的效
果的改进。

为了估计算法B的修正效果,不得不对给定的p、t、
N 
和k,计算Imax=I(p,m,hmax)
(第2步)。首先由式(3.17)可知,
m 
是
t 
和d=N/
k 
的函数,而hma是
p 
和
m 
的函数,因

2.x 
此,Imax是p、
t 
和d=N/即ImaIma(p,d)。在一次迭代中,
k 
的函数, x=xt,被修正的数字的

期望数可按如下公式计算: 

Nc=x(t,·
N 
(2.

Imap,d)3.26)
为方便起见,可将Nc F(t,·其中

表示为Nc=p,d)k, 
t,=xt,·3.27)
F(p,d) 
F(p,d)Ima(pp,
,
d)
d 
则没有修正效果,
(2.

t,是一个独立于
k 
的修正因子。如果F(t,d)≤0, 攻击失败; 
如果F(p,d)≥0.大多数实验结果表明,算法B看起来好像是很成功的。对固定的
t 
和t,
,5, 
5(最小的相关概率, 1。

d,计算使得F(* t,*≥p) 见表3.

pd)≥0.
表
p 
3.2.1 
满足F(p,d)=0.2.

t,5的
p 

d t 
2 4 6 8 10 12 14 16 18 
10 0.761 0.880 0.980 0.980 0.980 0.980 0.980 0.980 0.980 
102 0.959 0.754 0.824 0.863 0.889 0.905 0.917 0.926 0.934 
103 0.553 0.708 0.787 0.832 0.861 0.882 0.897 0.908 0.918 
104 0.533 0.679 0.763 0.812 0.844 0.867 0.883 0.896 0.906 
105 0.525 0.663 0.748 0.800 0.833 0.857 0.875 0.889 0.900 
106 0.519 0.650 0.737 0.789 0.825 0.849 0.868 0.883 0.894 
107 0.515 0.641 0.727 0.781 0.817 0.843 0.862 0.877 0.890 
108 0.514 0.634 0.720 0.774 0.812 0.838 0.858 0.874 0.886 
109 0.512 0.628 0.714 0.770 0.807 0.833 0.854 0.870 0.882 
1010 0.510 0.621 0.709 0.764 0.802 0.830 0.850 0.866 0.879 

从表3.1可以看出,当t<8 时,一个成功攻击必需的相关概率界是在相关的实际值范

2.8时, 5。在这些情况下,
围内。特别地,当t=概率越来越接近0.算法B对很长的LFSR 是
成功的。例3.3也说明了这一点。

2.
例3.3 
由表3.1可知,满足F(100)5的p=754 。现在考虑下列情形:
2.2.p,4,=0.0.
N 
=k=t4,p=75(
524,100,F(t,0.而不是0.

4,而不是0.则d=5。
可计算出算法B中的参数ptr=0.Nthr=448 。这样,在第1次迭代中期望有448 个数
字被改变,导致减少39 个错误(h) 数字。

10100,=0.754), p,d)=392,