第5章统计推断

第4章介绍了概率论的一些基础知识,本章承接之前的话题,来探讨一些统计分析方面的内容。
5.1随机采样
概率分布是对现实世界中客观规律的高度抽象和数学表达,在统计分析中它们无处不在。但又因为分布是一种抽象的数学表达,所以要设法从观察中找到一个合适的分布并非易事,甚至某些分布很难用常规的、现成的数学模型去描述。而在处理这类问题时,采样就变得非常重要。在统计学中,抽样(或称采样)是一种推论统计方法,它是指从目标总体(population)中抽取一部分个体作为样本
(sample),通过观察样本的某些属性,依据所获得的数据对总体的数量特征得出具有一定可靠性的估计判断,从而达到对总体的认识。
在数理统计中,人们往往对有关对象的某一项数量指标感兴趣。为此,考虑开展与这一数量指标相联系的随机试验,并对这一数量指标进行试验或者观察。通常将试验的全部可能的观察值称为总体,并将每一个可能的观察值称为个体。总体中包含的个体数目称为总体的容量。容量有限的称为有限总体,容量无限的则称为无限总体。

总体中的每一个个体是随机试验的一个观察值,它对应于某一随机变量X的值。因此,一个总体对应于一个随机变量X。于是对总体的研究就变成了对一个随机变量X的研究,X的分布函数和数字特征就称为总体的分布函数和数字特征。这里将总体和相应的随机变量统一看待。
在实际中,总体的分布一般是未知的,或者只知道它具有某种形式而其中包含着未知参数。在数理统计中,人们都是通过从总体中抽取一部分个体,然后再根据获得的数据来对总体分布做出推断。被抽出的部分个体称为总体的一个样本。
所谓从总体抽取一个个体,就是对总体随机变量X进行一次观察并记录其结果。在相同的条件下对总体随机变量X进行n次重复、独立的观察,并将n次观察结果按照试验的次序记为X1,X2,…,Xn。由于X1,X2,…,Xn是对随机变量X观察的结果,且各次观察是在相同的条件下独立完成的,所以认为X1,X2,…,Xn是相互独立的,且都是与X具有相同分布的随机变量。这样得到的X1,X2,…,Xn称为来自总体X的一个简单随机样本,n称为这个样本的容量,如无特定说明文中所提到的样本都是指简单随机样本。当n次观察一经完成,便得到一组实数x1,x2,…,xn,依次是随机变量X1,X2,…,Xn的观察值,称为样本值。
设X是具有分布函数F的随机变量,若X1,X2,…,Xn是具有同一分布函数F的且相互独立的随机变量,则称X1,X2,…,Xn为从分布函数F(或总体F、或总体X)得到的容量为n的简单随机样本,简称样本。它们的观察值x1,x2,…,xn称为样本值,又称为X的n个独立的观察值。也可将样本看成是一个随机向量,写成(X1,X2,…,Xn),此时样本值相应地写成(x1,x2,…,xn)。若(x1,x2,…,xn)与(y1,y2,…,yn)都是相应于样本(X1,X2,…,Xn)的样本值,一般来说它们是不相同的。
样本是进行统计推断的依据。在应用时,往往不是直接使用样本本身,而是针对不同的问题构造样本的适当函数,利用这些样本的函数进行统计推断。
设X1,X2,…,Xn是来自总体X的一个样本,g(X1,X2,…,Xn)是X1,X2,…,Xn的函数,若g中不含未知参数,则称g(X1,X2,…,Xn)是一个统计量。
因为X1,X2,…,Xn都是随机变量,而统计量g(X1,X2,…,Xn)是随机变量的函数,因此统计量是一个随机变量。设x1,x2,…,xn是相应于样本X1,X2,…,Xn的样本值,则称g(x1,x2,…,xn)是g(X1,X2,…,Xn)的观察值。
样本均值和样本方差是两个最常用的统计量。假设X1,X2,…,Xn是来自总体X的一个样本,x1,x2,…,xn是这一样本的观察值。定义样本均值如下


=1n∑ni=1Xi


样本方差为


s2=1n-1∑ni=1Xi-2=1n-1∑ni=1X2i-n2


标准差(也称均方差)就是方差的算术平方根,即


s=∑ni=1Xi-2n-1


也许有读者会对上面的公式感到困惑,为什么样本方差计算公式里分母为n-1?简单来说,这样做的目的是为了让方差的估计无偏,即无偏估计。无偏估计(unbiased estimator)的意思是指估计量的数学期望等于被估计参数的真实值,否则就是有偏估计(biased estimator)。之所以进行抽样,就是因为现实中总体的获取可能有困难或者代价太高。退而求其次,用样本的一些数量指标来对相应的总体指标做估计。例如,对于总体X,样本均值就是总体X的数学期望的无偏估计,即


E(x)=1n∑ni=1Xi


那为什么样本方差分母必须要是n-1而不是n才能使得该估计无偏呢?这是令很多人倍感困惑的地方。
首先,假定随机变量X的数学期望μ是已知的,然而方差σ2未知。在这个条件下,根据方差的定义有


EXi-μ2=σ2,i=1,2,…,n


由此可得


E1n∑ni=1Xi-μ2=σ2


因此


1n∑ni=1Xi-μ2


是方差σ2的一个无偏估计,式中的分母n。这个结果符合直觉,并且在数学上也是显而易见的。
现在,考虑随机变量X的数学期望μ是未知的情形。这时,人们会倾向于直接用样本均值替换掉上面式子中的μ。这样做有什么后果呢?后果就是如果直接使用


1n∑ni=1Xi-2


作为估计,将会倾向于低估方差。这是因为


1n∑ni=1Xi-2=1n∑ni=1Xi-μ+μ-2

=1n∑ni=1Xi-μ2+2n∑ni=1Xi-μμ-+1n∑ni=1μ-2

=1n∑ni=1Xi-μ2+2-μμ-+μ-2

=1n∑ni=1Xi-μ2-μ-2



换言之,除非正好=μ,否则一定有


1n∑ni=1Xi-2<1n∑ni=1Xi-μ2


而不等式右边的才是对方差的无偏估计。这个不等式说明了为什么直接使用


1n∑ni=1Xi-2


会导致对方差的低估。那么,在不知道随机变量真实数学期望的前提下,如何正确的估计方差呢?答案是把上式中的分母n换成n-1,通过这种方法把原来偏小的估计“放大”一点点,就能获得对方差的正确估计了,而且这个结论也是可以被证明的。
下面就来证明


E1n-1∑ni=1Xi-2=σ2


记DXi,EXi为Xi的方差和期望,显然有DXi=σ2,EXi=μ。


D=D1n∑ni=1Xi=1n2D∑ni=1Xi=1n2∑ni=1DXi=σ2n
E2=D+E2=σ2n+μ2


且有


E∑ni=1X2i=∑ni=1EX2i=∑ni=1DXi+E2Xi=nσ2+μ2
E∑ni=1Xi=E∑ni=1Xi=nE2=nσ2n+μ2


由此可得


E1n-1∑ni=1Xi-2=1n-1E∑ni=1Xi-2

=1n-1E∑ni=1X2i-2Xi+2

=1n-1nσ2+μ2-2nσ2n+μ2+nσ2n+μ2=σ2


结论得证。
既然已经知道样本方差的定义为


s2=∑ni=1Xi-Xi-n-1


那么也就可以因此给出样本协方差的定义如下


covX,Y=∑ni=1Xi-Yi-n-1


设总体X(无论服从什么分布,只要均值和方差存在)的均值为μ,方差为σ2,X1,X2,…Xn是来自总体X的一个样本,和s2分别是样本均值和样本方差,则有


E=μ,D=σ2/n


而


Es2=E1n-1∑ni=1X2i-n2=1n-1∑ni=1EX2i-nE2
=1n-1∑ni=1σ2+μ2-nσ2n+μ2=σ2


即


Es2=σ2


回忆第4章中曾经给出的一个结论: 设X1,X2,…,Xn是来自正态总体Nμ,σ2的一个样本,是样本的均值,则有


~Nμ,σ2n


如果将其转换为标准正态分布的形式,则得出


-μσ/n~N0,1


很多情况下,无法得知总体方差σ2,此时就需要使用样本方差s2替代。但这样做的结果就是,上式将发生些许变化。最终的形式由下面这个定理给出,这也是本章后面将多次用到的一个重要结论。
定理设X1,X2,…Xn是来自正态总体Nμ,σ2的一个样本,样本均值和样本方差分别是和s2,则有


-μs/n~tn-1


其中,tn-1表示自由度为n-1的t分布。当n足够大时,t分布近似于标准正态分布(此时即变成中央极限定理所描述的情况)。当对于较小的n而言,t分布与标准正态分布有较大差别。
学生t分布,简称t分布,是类似正态分布的一种对称分布,但它通常要比正态分布平坦和分散。一个特定的t分布依赖于称之为自由度的参数,自由度越小,那么t分布的图形就越平坦,随着自由度的增大,t分布也逐渐趋近于正态分布。图51为标准正态分布及两个自由度不同的t分布。


图51标准正态分布与t分布


这里谈到的t分布最初是由英国化学家和统计学家威廉·戈塞特(Willam Gosset)于1908年首先提出的,当时他还在爱尔兰都柏林的一家酿酒厂工作。酒厂虽然禁止员工发表一切与酿酒研究有关的成果,但还是允许他在不提到酿酒的前提下,以笔名发表t分布的发现,所以论文使用了“学生”(Student)这一笔名。后来,t检验方法以及相关理论经由费希尔发扬光大,为了感谢戈塞特的功劳,费希尔将此分布命名为学生t分布(Student’s tdistribution)。
5.2参数估计
统计推断是以带有随机性的样本观测数据为基础,结合具体的问题条件和假定,而对未知事物做出的以概率形式表述的推断,它是数理统计的主要任务。总的来说,统计推断的基本问题可以分为两大类: 一类是参数估计; 另一类是假设检验。在参数估计部分,将着重关注点估计和区间估计这两类问题。
5.2.1参数估计的基本原理
如果想知道某所中学高三年级全体男生的平均身高,其实只要测定每个人的身高然后再取均值即可。但是若想知道中国成年男性的平均身高似乎就不那么简单了,因为这个研究的对象群体过于庞大,要想获得全体中国成年男性的身高数据显然不切实际。这时一种可以想到的办法就是对这个庞大的总体进行采样,然后根据样本参数来推断总体参数,于是便引出了参数估计(parameter estimation)的概念。参数估计就是用样本统计量去估计总体参数的方法。例如,可以用样本均值估计总体均值,用样本方差估计总体方差。如果把总体参数(均值、方差等)笼统地用一个符号θ表示,而用于估计总体参数的统计量用θ^表示,那么参数估计也就是用θ^估计θ的过程,其中θ^也称为是估计量(estimator),而根据具体样本计算得出的估计量数值就是估计值(estimated value)。
点估计(point estimate)就是用样本统计量θ^的某个取值直接作为总体参数θ的估计值。例如,可以用样本均值x-直接作为总体均值μ的估计值,用样本比例p直接作为总体比例的估计值等。这种方式的点估计也称为矩估计,它的基本思路就是用样本矩估计总体矩,用样本矩的相应函数来估计总体矩的函数。由大数定理可知,如果总体X的k阶矩存在,那么样本的k阶矩以概率收敛到总体的k阶矩,样本矩的连续函数收敛到总体矩的连续函数,这就启发人们可以用样本矩作为总体矩的估计量,这种用相应的样本矩去估计总体矩的估计方法就称为矩估计法,这种方法最初是由英国统计学家卡尔·皮尔逊(Karl Pearson)提出的。
来看一个例子。2014年10月28日,为了纪念美国实验医学家、病毒学家乔纳斯·爱德华·索尔克(Jonas Edward Salk)百年诞辰,谷歌特别在其主页上刊出了一幅如图52所示的纪念画。“二战”以后,由于缺乏有效的防控手段,脊髓灰质炎逐渐成为美国公共健康的最大威胁之一。1952年的“大流行”是美国历史上最严重的爆发,那年报道的病例有58000人,其中3145人死亡,另有21269人致残,且多数受害者是儿童。直到索尔克研制出首例安全有效的“脊髓灰质炎疫苗”,曾经让人闻之色变的脊髓灰质炎才开始得到有效的控制。


图52索尔克纪念画


索尔克在验证他发明的疫苗效果时,设计了一个随机双盲对照试验,实验结果是在200745名全部接种了疫苗的儿童中,最后患上脊髓灰质炎的一共有57例。那么采用点估计的办法就可以推断该疫苗的整体失效率大约为


p^=57200745=0.0284%


在重复抽样下,点估计的均值可以期望等于总体的均值,但由于样本是随机抽取的,由某一个具体样本算出的估计值可能并不等同于总体均值。在用矩估计法对总体参数进行估计时,还应该给出点估计值与总体参数真实值间的接近程度。通常围绕点估计值构造总体参数的一个区间,并用这个区间度量真实值与估计值之间的接近程度,这就是区间估计。
区间估计(interval estimate)是在点估计的基础上,给出总体参数估计的一个区间范围,而这个区间通常是由样本统计量加减估计误差得到的。与点估计不同,进行区间估计时,根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出一个概率度量。

例如,在以样本均值估计总体均值的过程中,由样本均值的抽样分布可知,在重复抽样或无限总体抽样的情况下,样本均值的数学期望等于总体均值,即Ex-=μ。还可以知道,样本均值的标准差σx-=σ/n,其中σ是总体的标准差,n是样本容量。根据中央极限定理可知样本均值的分布服从正态分布。这就意味着,样本均值x-落在总体均值μ的两侧各一个抽样标准差范围内的概率为0.6827; 落在两个抽样标准差范围内的概率为0.9545; 落在三个抽样标准差范围内的概率是0.9973。
事实上,完全可以求出样本均值落在总体均值两侧任何一个抽样标准差范围内的概率。但实际估计时,情况却恰恰相反。人们所知的仅是样本均值x-,而总体均值μ未知,也正是需要估计的。由于x-与μ之间的距离是对称的,如果某个样本均值落在μ的两个标准差范围之内,反过来μ也就被包括在以x-为中心左右两个标准差的范围之内。因此,约有95%的样本均值会落在μ的两个标准差范围内。或者说,约有95%的样本均值所构造的两个标准差区间会包括μ。图53给出了区间估计的示意图。


图53区间估计示意图


在区间估计中,由样本统计量所构造的总体参数的估计区间被称为置信区间(confidence interval),而且如果将构造置信区间的步骤重复多次,置信区间中所包含的总体参数真实值的次数的占比称为置信水平,或置信度。在构造置信区间时,可以使用希望的任意值作为置信水平。常用的置信水平和正态分布曲线下右侧面积为α/2时的临界值如表51所示。


表51常用置信水平临界值



置信水平
α
α/2
临界值
90%
0.10
0.050
1.645
95%
0.05
0.025
1.96
99%
0.01
0.005
2.58

5.2.2单总体参数区间估计
1. 总体比例的区间估计


比例问题可以看做是一项满足二项分布的试验。例如,在索尔克的随机双盲对照试验中,实验结果是在全部200745名接种了疫苗的儿童中最后患上脊髓灰质炎的一共有57例。这就相当是做了200745次独立的伯努利试验,而且每次试验的结果必为两种可能之一,即要么是患病,要么是不患病。本章前面也讲过,服从二项分布的随机变量X~Bn,p以np为期望,以np1-p为方差。可以令样本比例p^=X/n作为总体比例p的估计值,而且可以得知


Ep^=1nE(x)=1n·np=p


同时还有


varp^=1n2var(x)=1n2·np1-p=p1-Pn

sep^=p1-Pn


由此便已经具备了进行区间估计的必要素材。
第一种进行区间估计的方法被称为是Wald方法,它是一种近似方法。根据中央极限定理,当n足够大时,将会有


p^~Np,p1-Pn


5.2.1节中也给出了标准正态分布中95%置信水平下的临界值,即1.96,则


Pr-1.96<p^-pp1-p/n<1.96≈0.95
Prp^-1.96p1-pn<p<p^+1.96p1-pn≈0.95


Wald方法对上述结果做了进一步的近似,即把根号下的p用p^代替,于是总体比例p在95%置信水平下的置信区间即为


p^-1.96p^1-p^n,p^+1.96p^1-p^n


以索尔克的随机双盲对照试验为例,可以算得总体比例估计的置信区间,保留小数点后6位有效数字的结果为(0.000210,0.000358)。
Wald方法的基本原理是利用正态分布对二项分布进行近似,与之相对的另外一种方法是ClopperPearson方法。该方法完全是基于二项分布的,所以它是一种更加确切的区间估计方法。利用ClopperPearson方法,可以算得保留小数点后6位有效数字的95%置信水平下的区间估计结果为(0.000215,0.000369)。可见,这一数值其实已经与Wald方法所得之结果非常相近了。
2. 总体均值的区间估计
在对总体均值进行区间估计时,需要分几种情况。首先,如果考虑的总体是正态分布且方差σ2已知,或总体不满足正态分布但为大样本(n≥30)时,样本均值x-的抽样分布均为正态分布,数学期望为总体均值μ,方差为σ2/n。而样本均值经过标准化以后的随机变量服从标准正态分布,即


z=x--μσ/n~N0,1


由此可知总体均值μ在1-α置信水平下的置信区间为


x--zα/2σn,x-+zα/2σn


其中,α为显著水平,它是总体均值不包含在置信区间内的概率; zα/2为标准正态分布曲线与横轴围成的面积等于α/2时的z值。
如果总体服从正态分布但σ2未知,或总体并不服从正态分布,只要是在大样本条件下,都可以用样本方差s2来代替总体方差σ2,此时总体均值在1-α置信水平下的置信区间为


x--zα/2sn,x-+zα/2sn


其中需要注意的一点,也是本章前面着重讨论的一点,即如果设X1,X2,…,Xn是来自总体X的一个样本,那么作为总体方差σ2的无偏估计的样本方差公式为


s2=1n-1∑ni=1Xi-2=1n-1∑ni=1X2i-n2


除此之外,考虑总体是正态分布,但方差σ2未知且属于小样本(n<30)的情况,仍需用样本方差s2替代总体方差σ2。但此时样本均值经过标准化以后的随机变量将服从自由度为n-1的t分布,即


t=x--μs/n~tn-1


注意这也是本章前面给出的一个定理。于是,需要采用学生t分布建立总体均值μ的置信区间。根据t分布建立的总体均值μ在1-α置信水平下的置信区间为


x--tα/2sn,x-+tα/2sn


其中,tα/2是自由度为n-1时,t分布中右侧面积为α/2的t值。
表52对本部分介绍的关于单总体均值的区间估计方法进行了总结,供有需要的读者参阅。


表52单总体均值的区间估计



总体分布
样本量
总体方差σ2已知
总体方差σ2未知
正态分布
大样本n≥30
x-±zα/2σn
x-±zα/2sn

小样本n<30
x-±zα/2σn
x-±tα/2sn
非正态分布
大样本n≥30
x-±zα/2σn
x-±zα/2sn

3. 总体方差的区间估计
此处仅讨论正态总体方差的估计问题。根据样本方差的抽样分布可知,样本方差服从自由度为n-1的χ2分布,所以考虑用χ2分布构造总体方差的置信区间。给定一个显著水平α,用χ2分布建立总体方差σ2的置信区间,其实就是要找到一个χ2值,使得


χ21-α/2≤χ2≤χ2α/2


由于


n-1s2σ2~χ2n-1


所以可以用其来替代χ2,于是有


χ21-α/2≤n-1s2σ2≤χ2α/2


并根据上式推导出总体方差σ2在1-α置信水平下的置信区间为


n-1s2χ2α/2≤σ2≤n-1s2χ21-α/2


因此便可对总体方差的置信区间进行估计。
5.2.3双总体均值差的估计
本章前面曾经指出,若Xi~Nμi,σ2i,其中i=1,2,…,n且相互独立,则它们的线性组合为C1X1+C2X2+…+CnXn,仍服从正态分布,其中C1,C2,…,Cn是不全为0的常数,并由数学期望和方差的性质可知


C1X1+C2X2+…+CnXn~N∑ni=1Ciμi,∑ni=1C2iσ2i


所以假设随机变量的估计符合正态分布的一个好处就是它们的线性组合仍然可以满足正态分布的假设。如果有X1~Nμ1,σ21和X2~Nμ2,σ22,显然有


aX1+bX2~Naμ1+bμ2,a2σ21+b2σ22


当a=1,b=-1时,有


X1-X2~Nμ1-μ2,σ21+σ22


这其实给出了两个独立的正态分布的总体之差的分布。
从X1和X2这两个总体中分别抽取样本量为n1和n2的两个随机样本,样本均值分别为x-1和x-2,则样本均值x-1满足x-1~μ1,σ21/n1,样本均值x-2满足x-2~μ2,σ22/n2。进而样本均值之差x-1-x-2满足


x-1-x-2~Nμ1-μ2,σ21n1+σ22n2


由此得到了进行双总体均值的差区间估计的所需素材。在具体讨论时将问题分成两类,即独立样本数据的双总体均值差估计问题,以及配对样本数据的双总体均值差估计问题。
1. 独立样本
如果两个样本是从两个总体中独立抽取的,即一个样本中的元素与另一个样本中的元素相互独立,则称为独立样本(independent samples)。
当两个总体的方差σ21和σ22已知的时候,根据前面推出的结论,类似于单个总体区间估计,可以得出μ1-μ2的置信水平为1-α的双尾置信区间为


x-1-x-2-zα/2σ21n1+σ22n2,x-1-x-2+zα/2σ21n1+σ22n2


如果两个总体的方差未知,可以用两个样本方差s21和s22代替,这时μ1-μ2的置信水平为1-α的双尾置信区间为


x-1-x-2-zα/2s21n1+s22n2,x-1-x-2+zα/2s21n1+s22n2


对于两个总体的方差未知的情况,将进一步划分为两种情况,首先当两个总体方差相同,即σ21=σ22但未知时,可以得到


t=x-1-x-2-μ1-μ2s′1n1+1n2~tn1+n2-2


其中


s′=n1-1s21+n2-1s22n1+n2-2


其中,s21和s22分别是样本方差。类似之前的做法,可以得到μ1-μ2的置信水平为1-α的双尾置信区间为


x-1-x-2-tα/2n1+n2-2s′1n1+1n2,x-1-x-2+tα/2n1+n2-2s′1n1+1n2


看一个例子。假设有编号为1和2的两种饲料,现在分别用它们喂养两组肉鸡,然后记录每只鸡的增重情况,数据如表53所示。


表53喂食不同饲料的肉鸡增重情况



饲料
增重
1
42, 68, 85
2
42, 97, 81, 95, 61, 103

首先分别计算两组数据的均值和方差,均值分别为65和79.83,方差分别为21.66和23.87。两组样本观察值的标准差是非常相近的,因此假设两个总体的方差是相等的。
根据上面给出的公式,首先来计算s′的值,计算过程如下


s′=2×21.662+5×23.8723+6-2=23.26


因此,μ1-μ2在95%置信水平下的置信区间为


65-79.83±c0.975t7×23.2616+13

=-14.83±38.90=-53.72,24.06


此外,当两个总体的方差未知,且σ21≠σ22时,可以证明


t=x-1-x-2-μ1-μ2s21n1+s22n2~tν


近似成立,其中


ν=σ21n1+σ22n22σ212n21n1-1+σ222n22n2-2


但由于σ21和σ22未知,所以用样本方差s21和s22近似,即


ν^=s21n1+s22n22s212n21n1-1+s222n22n2-2


可以近似地认为t~tν^。并由此得到μ1-μ2的置信水平为1-α的双尾置信区间为


x-1-x-2-tα/2ν^s21n1+s22n2,x-1-x-2+tα/2ν^s21n1+s22n2


仍以饲料和肉鸡增重的数据为例,可以得到


s21n1=21.6623≈156.3852,s22n2=23.8726≈94.9628


进而有


ν^=156.3852+94.96282156.38522/2+94.96282/5≈4.503


因此,μ1-μ2在95%置信水平下的置信区间为


65-79.83±c0.975t4.503×23.8726+21.6623

=-14.83±2.6585×15.85=-56.97,27.30


2. 配对样本
在前面的例子中,为了讨论两种饲料的差异,从两个独立的总体中进行了抽样,但使用独立样本估计两个总体均值之差也潜藏着一些弊端。试想一下,如果喂食饲料1的肉鸡和喂食饲料2的肉鸡体质上本来就存在差异,可能其中一种吸收更好而另一组则略差,显然试验结果的说服力将大打折扣。这种“有失公平”的独立抽样往往会掩盖一些真正的差异。
在实验设计中,为了控制其他”有失公平”的因素,尽量降低不利影响,使用配对样本(paired sample)就是一种值得推荐的做法。所谓配对样本就是指一个样本中的数据与另一个样本中的数据是相互对应的。例如,在验证饲料差异的试验中,可以选用同一窝诞下的一对小鸡作为一个配对组,因为人们认为同一窝诞下的小鸡之间差异最小。按照这种思路,如表54所示,一共有6个配对组参与实验,然后从每组中随机选取一只小鸡喂食饲料1,然后向另外一只喂食饲料2,并记录肉鸡体重增加的数据。


表54配对试验数据



饲料
配对1组
配对2组
配对3组
配对4组
配对5组
配对6组
1
44
55
68
85
90
97
2
42
61
81
95
97
103

使用配对样本进行估计时,在大样本条件下,两个总体均值之差μ1-μ2在1-α置信水平下的置信区间为


d--zα/2σdn,d-+zα/2σdn


其中,d表示一组配对样本之间的差值,d-表示各差值的均值,σd表示各差值的标准差。当总体σd未知时,可用样本差值的标准差sd来代替。
在小样本情况下,假定两个总体观察值的配对差值服从正态分布。那么两个总体均值之差μ1-μ2在1-α置信水平下的置信区间为


d--tα/2n-1sdn,d-+tα/2n-1sdn


例如,根据表54中的数据可以算得各配对组之差分别为-2、6、13、10、7和6,以及d-=6.667,sd=5.046。因此,总体均值之差μ1-μ2在95%置信水平下的置信区间为


6.667±c0.975t5×5.0466≈1.37,11.96


5.2.4双总体比例差的估计
由样本比例的抽样分布可知,从两个满足二项分布的总体中抽出两个独立的样本,那么两个样本比例之差的抽样服从正态分布,即


p^1-p^2~Np1-p2,p11-p1n1+p21-p2n2


再对两个样本比例之差进行标准化,即


z=p^1-p^2-p1-p2p11-p1n1+p21-p2n2~N0,1


当两个总体的比例p1和p2未知时,可用样本比例p^1和p^2代替。所以,根据正态分布建立的两个总体比例之差p1-p2在1-α置信水平下的置信区间为


p^1-p^2±zα/2p^11-p^1n1+p^21-p^2n2


下面来看一个例子。在某电视节目的收视率调查中,从农村随机调查了400人,其中有128人表示收看了该节目; 从城市随机调查了500人,其中225人表示收看了该节目。请以95%的置信水平来估计城市与农村收视率差距的置信区间。利用上述公式,不难算出置信区间为(6.68%,19.32%),即城市与农村收视率差值的95%的置信区间为6.68%~19.32%。如果使用连续性修正,为6.46%~19.54%。
5.3假设检验
假设检验是除参数估计之外的另一类重要的统计推断问题。它的基本思想可以用小概率原理来解释。所谓小概率原理,就是认为小概率事件在一次试验中是几乎不可能发生的。也就是说,对总体的某个假设是真实的,那么不利于或者不能支持这一假设的事件在一次试验中是几乎不可能发生的; 要是在一次试验中该事件竟然发生了,人们就有理由怀疑这一假设的真实性,进而拒绝这一假设。
5.3.1基本概念
大卫·萨尔斯伯格(David Salsburg)在《女士品茶: 20世纪统计怎样变革了科学》一书中,以英国剑桥一群科学家及其夫人们在一个慵懒的午后所做的一个小小的实验为开篇,为读者展开了一个关于20世纪统计革命的别样世界。而开篇这个品茶故事大约是这样的,当时一位女士表示向一杯茶中加入牛奶和向一杯奶中加入茶水,两者的味道品尝起来是不同的。她的这一表述立刻引起了当时在场的众多睿智头脑的争论。其中一位科学家决定用科学的方法来测试一下这位女士的假设。这个人就是大名鼎鼎的英国统计学家,现代统计科学的奠基人罗纳德·费希尔(Ronald Fisher)。费希尔给这位女士提供了8杯兑了牛奶的茶,其中一些是先放的牛奶,另一些则是先放的茶水,然后费希尔让这位女士品尝后判断每一杯茶的情况。
现在问题来了,这位女士能够成功猜对多少杯茶的情况才足以证明她的理论是正确的,8杯?7杯?还是6杯?解决该问题的一个有效方法是计算一个P值,然后由此推断假设是否成立。P值(Pvalue)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明原假设情况的发生的概率很小,而如果确实出现了P值很小的情况,根据小概率原理,人们就有理由拒绝原假设。P值越小,拒绝原假设的理由就越充分。就好比说种瓜得瓜,种豆得豆。在原假设“种下去的是瓜”这个条件下,正常得出来的也应该是瓜。相反,如果得出来的是瓜这件事越不可能发生,人们否定原假设的把握就越大。如果得出来的是豆,也就表明得出来的是瓜这件事的可能性小到了零,这时就有足够的理由推翻原假设,也就可以确定种下去的根本就不是瓜。

假定总共的8杯兑了牛奶的茶中,有6杯的情况都被猜中了。现在就来计算一下这个P值。不过在此之前,还需要先建立原假设和备择假设。原假设通常是指那些单纯由随机因素导致的采样观察结果,通常用H0表示。而备择假设,则是指受某些非随机原因影响而得到的采样观察结果,通常用H1表示。如果从假设检验具体操作的角度来说,常常把一个被检验的假设称为原假设,当原假设被拒绝时而接收的假设称为备择假设,原假设和备择假设往往成对出现。此外,原假设往往是研究者想收集证据予以反对的假设,当然也是有把握且不能轻易被否定的命题,而备择假设则是研究者想收集证据予以支持的假设,同时也是无把握且不能轻易肯定的命题作。
就当前所讨论的饮茶问题而言,显然在不受非随机因素影响的情况下,那个常识性的,似乎很难被否定的命题应该是“无论是先放茶水还是先放牛奶是没有区别的”。如果将该命题作为H0,其实也就等同于那位女士对茶的判断完全是随机的,因此她猜中的概率应该是0.5。这时随机变量X~B8,0.5,即满足n=8,p=0.5的二项分布。相应的备择假设H1为该女士能够以大于0.5的概率猜对茶的情况。
直观上,如果8杯兑了牛奶的茶中,有6杯的情况都被猜中了,可以算出p^=6/8=0.75,这个值大于0.5,但这是否大到可以令人们相信先放茶水还是先放牛奶确有不同这个结论。所以需要来计算一下P值,即Pr(X≥6)。可以算得P值是0.1445312。可见,P值并不是很显著。通常都需要P值小于0.05,才能有足够的把握拒绝原假设。而本题所得结果则表明没有足够的证据支持拒绝原假设。所以如果那位女士猜对了8杯中的6杯,也没有足够的证据表明先加牛奶或者先加茶水会有何不同。
还应该注意到以上所讨论的是一个单尾的问题。因为备择假设是说该女士能够以大于0.5的概率猜对茶的情况。日常遇到的很多问题也有可能是双尾的,例如原假设是概率等于某个值,而备择假设则是不等于该值,即大于或者小于该值。在这种情况下,通常需要将算得的P值翻倍,除非已经求得的P值大于0.5,此时令P值为1。另外,当n较大的时候,还可以用正态分布来近似二项分布。
1965年,美国联邦最高法院对斯文诉亚拉巴马州一案作出了裁定。该案也是法学界在研究预断排除原则时常常被提及的著名案例。本案的主角斯文是一个非洲裔美国人,他被控于亚拉巴马州的塔拉迪加地区对一名白人妇女实施了强奸犯罪,并因此被判处死刑。
最终该项案件被上诉至最高法院,理由是陪审团中没有黑人成员,斯文据此认为自己受到了不公正的审判。最高法院驳回了上述请求。根据亚拉巴马州法律,陪审团成员是从一个100人的名单中抽选的,而当时的100名备选成员中有8名是黑人。根据诉讼过程中的无因回避原则,这8名黑人被排除在了此处审判的陪审团之外,而无因回避原则本身是受宪法保护的。最高法院在裁决书中也指出: “无因回避的功能不仅在于消除双方的极端不公正,也要确保陪审员仅仅依赖于呈现在他们面前的证据做出裁决,而不能依赖于其他因素……无因回避可允许辩护方通过预先审核程序中的调查提问以确定偏见的可能,消除陪审员的敌意。”此外最高法院还认为,在陪审团备选名单上有8名黑人成员,表明整体比例上的差异很小,所以也就不存在刻意引入或者排除一定数量的黑人成员的意图。
亚拉巴马州当时规定只要超过21岁就符合陪审团成员的资格,而在塔拉迪加地区满足这个条件的大约有16000人,其中26%是非洲裔美国人。现在的问题是,如果这100名备选的陪审团成员确实是从符合条件的人群中随机选取的,那么其中黑人成员的数量会否是8人或者更少?可以算得这个概率是0.0000047,也就相当于二十万分之一的机会。
对于假设检验而言,也可以使用正态分布的近似参数计算置信区间。唯一的不同在于此时是在原假设H0:p=p0的前提下计算概率值,所以原来在计算置信区间时所采用的近似


p1-pn≈p^1-p^n


现在就不再需要了。取而代之的是在计算标准误差和P值时直接使用p0即可。
如果估计值用p^表示,其(估计的)标准误差是


p01-p0/n


检验统计量为


Z=p^-p0p01-p0/n


是当n比较大时,在原假设前提下,通过对标准正态分布的近似得到。
继续前面的例子,现在原假设可以表述为H0:p=0.26,相对应的备择假设为H1:p<0.26。在100人的备选陪审团名单中有8名黑人成员,此时P值可由下式给出


PrZ≤0.08-0.260.26×0.74/100=PrZ≤-4.104=0.000020


由此便可以拒绝原假设,从而认为法院的裁定在很大程度上是错误的。
需要说明的是,当使用正态分布(连续的)作为二项分布(离散的)的近似时,要对二项分布中的离散整数x进行连续性修正,将数值x用从x-0.5到x+0.5的区间代替(即加上与减去0.5)。就本题而言,为了得到一个更好的近似,连续性修正就是令PrX≤8≈PrX*<8.5。所以有


PrZ≤0.085-0.260.26×0.74/100=PrZ≤-3.989657=0.000033


此处无须对连续性修正做过多的解释,但请记住,若不使用连续性修正,那么所得的P值将总是偏小,相应的置信区间也偏窄。
5.3.2两类错误
对原假设提出的命题,要根据样本数据提供的信息进行判断,并得出“原假设正确”或者“原假设错误”的结论。而这个判断有可能正确,也有可能错误。前面在假设检验的基本思想中已经指出,假设检验所依据的基本原理是小概率原理,由此原理对原假设做出判断,而在整个推理过程中所运用的是一种反证法的思路。由于小概率事件,无论其概率多么小,仍然还是有可能发生的,所以利用前面方法进行假设检验时,有可能作出错误的判断。这种错误的判断有两种情形。
一方面,当原假设H0成立时,由于样本的随机性,结果拒绝了H0,犯了“弃真”错误,又称为第一类错误,也就是当应该接受原假设H0而拒绝这个假设时,称为犯了第一类错误。当小概率事件确实发生时,就会导致拒绝H0而犯第一类错误,因此犯第一类错误的概率为α,即假设检验的显著性水平。
另一方面,当原假设H0不成立时,因样本的随机性,结果接受了H0,便犯了“存伪”错误,又称为第二类错误,即当应该拒绝原假设H0而接受了这个假设时,称为犯了第二类错误.犯第二类错误的概率为β。
当原假设H0为真,人们却将其拒绝,如果犯这种错误的概率用α表示,那么当H0为真时,人们没有拒绝它,就表示做出来正确的决策,其概率显然就应该是1-α; 当原假设H0为假,人们却没有拒绝它,犯这种错误的概率用β表示。那么当H0为假,且正确地拒绝了它,其概率自然为1-β。正确决策和错误决策的概率可以归纳为表55。


表55假设检验中各种可能结果及其概率





接受H0
拒绝H0
H0为真
决策正确(1-α)
弃真错误(α)
H1为真
取伪错误(β)
决策正确(1-β)


人们总是希望两类错误发生的概率α和β都越小越好,然而实际上却很难做到。当样本容量n确定后,如果α变小,则检验的拒绝域变小,相应的接受域就会变大,因此β值也就随之变大; 相反,若β变小,则不难想到α又会变大。人们有时不得不在两类错误之间做权衡。通常来说,哪一类错误所带来的后果更严重、危害更大,在假设检验中就应该把哪一类错误作为首选的控制目标。但实际检验时,通常所遵循的原则都是控制犯第一类错误的概率α,而不考虑犯第二类错误的概率β,这样的检验称为显著性检验。这里所讨论的检验,都是显著性检验。又由于显著性水平α是预先给定的,因而犯第一类错误的概率是可以控制的,而犯第二类错误的概率通常是不可控的。
5.3.3均值检验
根据假设检验的不同内容和进行检验的不同条件,需要采用不同的检验统计量,其中z统计量和t统计量是两个最主要也最常用的统计量,它们常常用于均值和比例的假设检验。具体选择哪个统计量往往要考虑样本量的大小以及总体标准差σ是否已知。事实上,因为统计实验往往是针对来自某一总体的一组样本而进行的,所以更多情况下,人们都认为总体标准差σ是未知的。在参数估计部分,已经学习了对单总体样本的均值估计以及双总体样本的均值差估计,本节的内容大致上都是基于前面这些已经得到的结果而进行的。
样本量大小是决定选择哪种统计量的一个重要考虑因素。因为大样本条件下,如果总体是正态分布,样本统计量将也服从正态分布,即使总体是非正态的,样本统计量也趋近于正态分布。所以,大样本下的统计量将都被看成是正态分布的,此时即需要使用z统计量。z统计量是以标准正态分布为基础的一种统计量,当总体标准差σ已知时,它的计算公式如下


z=x--μ0σ/n


正如前面刚刚说过的,实际中总体标准差σ往往很难获取,这时一般用样本标准差s来代替,如此一来上式便可改写为


z=x--μ0s/n


在样本量较小的情况下,且总体标准差未知,由于检验所依赖的信息量不足,只能用样本标准差来代替总体标准差,此时样本统计量就服从t分布,故应使用t统计量,其计算公式为


t=x--μ0s/n


这里t统计量的自由度为n-1。
例如现在为了测定一块土地的pH,随机抽取了17块土壤样本,相应的pH检测结果如表56所示。现在想问该区域的土壤是否是中性的(即pH=7)?


表56土壤pH检测数据



6.0
5.7
6.2
6.3
6.5
6.4
6.9
6.6
6.8
6.7
6.8
7.1
6.8
7.1
7.1
7.5
7.0

首先提出原假设和备择假设如下


H0:pH=7,H1:pH≠7


该题目显然属于小样本且总体方差未知的情况,此时可以计算其t统计量如下


t=6.67647-70.45488/17≈-2.9326


因为这是一个双尾检验,所以计算出其P值为0.009757353。
下面分析这个结果。首先可以查表或者使用数学软件求出双尾检验的两个临界值分别为-2.1199和2.1199。由于原假设是pH=7,那么它不成立的情况就有两种,要么pH>7,要么pH<7,所以它是一个双尾检验。如图54所示,其中两部分阴影的面积之和占总图形面积的5%,即两边各2.5%。已经算得的t统计量要小于临界值-2.1199,对称地,t统计量的相反数也大于另外一个临界值2.1199,即样本数据的统计量落入了拒绝域中。样本数据的统计量对应的P值也小于0.05的显著水平,所以应该拒绝原假设。因此认为该区域的土壤不是中性的。


图54双尾检测的拒绝域与接受域


除了进行双尾检验以外,当然还可执行一个单尾检验。例如现在问该区域的土壤是否呈酸性(即pH<7),那么便可提出如下的原假设与备择假设


H0:pH=7,H1:pH<7


此时所得之t统计量并未发生变化,但是P值却不同了,可以算得P值为0.004878676。
如图55所示,t统计量小于临界值-1.7459,即样本数据的统计量落入了拒绝域中。样本数据的统计量对应的P值也小于0.05的显著水平,所以应该拒绝原假设。因此认为该区域的土壤是酸性的。


图55单尾检测的拒绝域与接受域


相比之下,讨论双总体均值之差的假设检验其实更有意义。因为在统计实践中,最常被问到的问题就是两个总体是否有差别。例如,医药公司研发了一种新药,在进行双盲对照实验时,新药常常被用来与安慰剂做比较。如果新药在统计上不能表现出与安慰剂的显著差别,显然这种药就是无效的。再比如前面讨论过的饲料问题,当对比两种饲料的效果时,必然要问及它们之间是否有差别。
同在研究双总体均值差的区间估计问题时所遵循的思路一致,此时仍然分独立样本数据和配对样本数据两种情况来讨论。

对于独立样本数据而言,如果两个总体的方差σ21和σ22未知,但是可以确定σ21=σ22,那么在此情况下检验统计量的计算公式为


t=x-1-x-2-μ1-μ2s′1n1+1n2


其中,s′的表达式本章前面曾经给出过,这里不再重复。另外,t分布的自由度为n1+n2-2。

对于独立样本数据,若两个总体的方差σ21和σ22未知,且σ21≠σ22,那么在此情况下检验统计量的计算公式为


t=x-1-x-2-μ1-μ2s21/n1+s22/n2


此时检验统计量近似服从一个自由度为ν^的t分布,ν^前面已经给出,这里不再重复。
仍然以饲料与肉鸡增重的数据为例,并假设两个总体的方差不相等,同样提出原假设和备择假设如下


H0:μ1=μ2,H1:μ1≠μ2


在原假设前提下,可以计算检验统计量的数值为


t=x-1-x-2s21/n1+s22/n2=65-79.8321.6623+23.8726=-14.8315.854≈-0.9357


这仍然是一个双尾检测,所以可以求得检验临界值为-2.658和2.658。因为-2.658≤-0.9357≤2.658,所以检验统计量落在了接受域中。更进一步还可以算得与检验统计量相对应的P值等于0.3968、大于0.05的显著水平,所以无法拒绝原假设,即不能认为两种饲料之间存在差异。
最后来研究双总体均值差的假设检验中,样本数据属于配对样本的情况。此时的假设检验其实与单总体均值的假设检验基本相同,即把配对样本之间的差值看成是从单一总体中抽取的一组样本。在大样本条件下,两个总体间各差值的标准差σd未知,所以用样本差值的标准差sd来代替,此时统计量的计算公式为


z=d--μsd/n


其中,d是一组配对样本之间的差值,d-表示各差值的均值,μ表示两个总体中配对数据差的均值。
在样本量较小的情况下,样本统计量就服从t分布,故应使用t统计量,其计算公式为


t=d--μsd/n


其中,t统计量的自由度为n-1。
继续前面关于双总体均值差中配对样本的讨论,欲检验喂食了两组不同饲料的肉鸡在增重数据方面是否具有相同的均值,现提出下列原假设和备择假设


H0:μ1=μ2,H1:μ1≠μ2


在原假设前提下,很容易得出配对差的均值μ也为零的结论,于是可以计算检验统计量如下


t=6.675.056=6.672.062≈3.235


这仍然是一个双尾检测,所以可以求得检验临界值-2.571和2.571。因为3.235≥2.571,所以检验统计量落在了拒绝域中。更进一步还可以算得与检验统计量相对应的P值等于0.02305、小于0.05的显著水平,所以应该拒绝原假设,即认为两种饲料之间存在差异。
5.4极大似然估计
正如本章前面所讲的,统计推断的基本问题可以分为两大类: 一类是参数估计; 另一类是假设检验。其中,假设检验又分为参数假设检验和非参数假设检验两大类。本章所讲的假设检验都属于是参数假设检验的范畴。参数估计也分为两大类,即参数的点估计和区间估计。用于点估计的方法一般有矩方法和最大似然估计法(Maximum Likelihood Estimate,MLE)两种。
5.4.1极大似然法的基本原理
最大似然这个思想最初是由高斯提出的,但真正将其发扬光大的则是费希尔。费希尔在其1922年发表的一篇论文中再次提出了最大似然估计这个思想,并且首先探讨了这种方法的一些性质。而且,费希尔当年正是凭借这一方法彻底撼动了皮尔逊在统计学界的统治地位。从此开始,统计学研究正式进入了费希尔时代。
为了引入最大似然估计法的思想,先来看一个例子。设一个口袋中有黑白两种颜色的小球,并且知道这两种球的数量比为3∶1,但不知道具体哪种球占3/4,哪种球占1/4。现在从袋子中有返回地任取3个球,其中有一个是黑球,那么试问袋子中哪种球占3/4,哪种球占1/4。
设X是抽取3个球中黑球的个数,又设p是袋子中黑球所占的比例,则有X~B3,p,即


PX=k=3kpk1-p3-k,k=0,1,2,3


当X=1时,不同的p值对应的概率分别为


PX=1;p=34=3×34×142=964
PX=1;p=14=3×14×342=2764


由于第一个概率小于第二个概率,所以判断黑球的占比应该是1/4。
在上面的例子中,p是分布中的参数,它只能取3/4或者1/4。需要通过抽样结果来决定分布中参数究竟是多少。在给定了样本观察值以后再去计算该样本的出现概率,而这一概率依赖于p值。所以就需要用p的可能取值分别去计算最终的概率,在相对比较之下,最终所取的p值应该是使得最终概率最大的那个p值。
极大似然估计的基本思想就是根据上述想法引申出来的。设总体含有待估参数θ,它可以取很多值,所以就要在θ的一切可能取值之中选出一个使样本观测值出现概率为最大的θ值,记为θ^,并将此作为θ的估计,并称θ^为θ的极大似然估计。
首先来考虑X属于离散型概率分布的情况。假设在X的分布中含有未知参数θ,记为


PX=ai=pai;θ,i=1,2,…,θ∈Θ


现从总体中抽取容量为n的样本,其观测值为x1,x2,…,xn,这里每个xi为a1,a2,…中的某个值,该样本的联合分布为


∏ni=1pxi;θ


由于这一概率依赖于未知参数θ,故可将它看成是θ的函数,并称其为似然函数,记为


Lθ=∏ni=1pxi;θ


对不同的θ,同一组样本观察值x1,x2,…,xn出现的概率Lθ也不一样。当P(A)>P(B)时,事件A出现的可能性比事件B出现的可能性大,如果样本观察值x1,x2,…,xn出现了,当然就要求对应的似然函数Lθ的值达到最大,所以应该选取这样的θ^作为θ的估计,使得


Lθ^=maxθ∈ΘLθ


如果θ^存在的话,则称θ^为θ的极大似然估计。
此外,当X是连续分布时,其概率密度函数为px;θ,θ为未知参数,且θ∈Θ,这里的Θ表示一个参数空间。现从该总体中获得容量为n的样本观测值x1,x2,…,xn,那么在X1=x1,X2=x2,…,Xn=xn时联合密度函数值为


∏ni=1pxi;θ


它也是θ的函数,也称为似然函数,记为


Lθ=∏ni=1pxi;θ


对不同的θ,同一组样本观察值x1,x2,…,xn的联合密度函数值也是不同的,因此应该选择θ的极大似然估计θ^,从而使下式得到满足


Lθ^=maxθ∈ΘLθ


5.4.2求极大似然估计的方法
当函数关于参数可导时,可以通过求导方法来获得似然函数极大值对应的参数值。在求极大似然估计时,为求导方便,常对似然函数Lθ取对数,称lθ=lnLθ为对数似然函数,它与Lθ在同一点上达到最大。根据微积分中的费马定理,当lθ对θ的每一分量可微时,可通过lθ对θ的每一分量求偏导并令其为0求得,称


lθθj=0,j=1,2,…,k


为似然方程,其中k是θ的维数。
下面就结合一个例子来演示这个过程。假设随机变量X~Bn,p,又知x1,x2,…,xn是来自X的一组样本观察值,现在求PX=T时,参数p的极大似然估计。首先写出似然函数


Lp=∏ni=1pxi1-p1-xi


然后,对上式左右两边取对数,可得


lp=∑ni=1xilnp+1-xiln1-p=nln1-p+∑ni=1xilnp-ln1-p


将lp对p求导,并令其导数等于0,得似然方程


dlpdp=-n1-p+∑ni=1xi1p+11-p

=-n1-p+1p1-p∑ni=1xi=0


解似然方程得


p^=1n∑ni=1xi=x-


可以验证,当p^=x-时,2lp/p2<0,这就表明p^=x-可以使函数取得极大值。最后将题目中已知的条件代入,可得p的极大似然估计为p^=x-=T/n。
再来看一个连续分布的例子。假设有随机变量X~Nμ,σ2,μ和σ2都是未知参数,x1,x2,…,xn是来自X的一组样本观察值,试求μ和σ2的极大似然估计值。首先写出似然函数


Lμ,σ2=∏ni=112πσe-(xi-μ)22σ2=2πσ2-n2·e-∑ni=1(xi-μ)22σ2


然后,对上式左右两边取对数,可得


lμ,σ2=-n2ln2πσ2-12σ2∑ni=1xi-μ2


将lμ,σ2分别对μ和σ2求偏导数,并令它们的导数等于0,于是可得似然方程


lμ,σ2μ=1σ2∑ni=1xi-μ=0
lμ,σ2σ2=-n2σ2+12σ4∑ni=1xi-μ2=0


求解似然方程可得


μ^=x-,σ^2=1n∑ni=1xi-x-2=0


而且还可以验证μ^和σ^2可以使得lμ,σ2达到最大。用样本观察值替代后便得出μ和σ2的极大似然估计分别为


μ^=,σ^2=1n∑ni=1Xi-2=S2n


因为μ^=是μ的无偏估计,但σ^2=S2n并不是σ2的无偏估计,可见参数的极大似然估计并不能确保无偏性。
最后给出一个被称为“不变原则”的定理: 设θ^是θ的极大似然估计,gθ是θ的连续函数,则gθ的极大似然估计为gθ^。
这里并不打算对该定理进行详细证明。下面将通过一个例子来说明它的应用。假设随机变量X服从参数为λ的指数分布,x1,x2,…,xn是来自X的一组样本观察值,试求λ和E(X)的极大似然估计值。首先写出似然函数


Lλ=∏ni=1λe-λxi=λne-λ∑ni=1xi


然后,对上式左右两边取对数,可得


lλ=nlnλ-λ∑ni=1xi


将lλ对λ求导得似然方程为


dlλdλ=nλ-∑ni=1xi=0


解似然方程得


λ^=n∑ni=1xi=1x-


可以验证它使lλ达到最大,而且上述过程对一切样本观察值都成立,所以λ的极大似然估计值为λ^=1/。此外,E(x)=1/λ,它是λ的函数,其极大似然估计可用不变原则进行求解,即用λ^代入E(x),可得E(x)的最大似然估计为,这与矩法估计的结果一致。
本章参考文献


[1]贾俊平,何晓群,金勇进.统计学[M].4版.北京: 中国人民大学出版社,2009.

[2]奥特,朗格内克.统计学方法与数据分析引论[M].5版.张忠占,等译.北京: 科学出版社,2003.

[3]萨尔斯伯格.女士品茶: 20世纪统计怎样变革了科学[M].邱东,等译.北京: 中国统计出版社,2004.

[4]Dawen Griffiths.深入浅出统计学.北京: 电子工业出版社,2012.

[5]Mario F. Triola.初级统计学[M].8版.刘新立,译.北京: 清华大学出版社,2004.