学习要点 
1. 理解经典线性回归模型。 
2. 掌握最小二乘估计及其性质。 
3. 理解最小二乘估计的几何解释。 
4. 理解偏相关系数的概念、性质及计算公式。 
5. 掌握线性回归模型的推断及评价。 
6. 掌握线性回归分析的 MATLAB 实现。 
7. 会用线性回归模型解决实际数据分析问题。 
5.1 线性回归模型 
我们先来看一个例子。 
例 5.1 表 5.1 是来自 4 个不同城市的二手住宅房销售数据 (完整的数据在“二手住 
宅房销售调查数据.xlsx”文件中)。请分析住宅房成交价格 (y) 与建筑面积 (x1)、城市人均 
年收入 (x2)、是否学区房 (x3) 之间的关系。 
我们想要找到 y 与 xi, i = 1, 2, 3 之间的依赖关系, 首先想到的是下列线性函数 
y = β0 + β1x1 + β2x2 + β3x3 + ε (5.1) 
这就是多元线性回归模型 (multivariate linear regression model), 其中 y 称为应变量 
(dependent variable) 或响应变量 (response variable), xi 称为解释变量 (explanatory 
variable) 或预测变量 (predictor variable), ε 称为残差项, 代表数据中不能被这 
个模型解释的部分, 一般假定它是一个随机变量。βi, i = 0, 1, 2, 3 称为回归系数, 是未知的, 
需要通过样本数据估计。我们这里所说的“线性”是指式 (5.1) 对回归系数是线性的, 而解 
释变量 xi 可以替换成它们的非线性变换, 如 x2i
、x2i
xj 等, 都不会改变线性模型的本质, 虽 
然叫法可能不一样。更一般地, 含有 p 个自变量的线性回归模型为 
y = β0 + β1x1 + β2x2 + · · · + βpxp + ε (5.2) 
为了估计回归系数, 需要收集样本数据 {(xi, yi) : i = 1, 2, · · · , n}, 其中 xi = (xi1, xi2, · · · ,
xip)T ∈ Rp, yi ∈ R。这时, 完整的线性回归模型为 
yi = β0 + β1xi1 + β2xi2 + · · · + βpxip + εi, i = 1, 2, · · · , n (5.3) 
表 5.1 二手住宅房销售调查数据 
序 号 成交价 (万元) 建筑面积 (平方米) 城市人均年收入 (万元) 是否学区房 
1 81 90 6.9 0 
2 115 101 8.2 0 
3 102 90 5.2 0 
4 89 100 6.9 0 
5 71 85 3.85 0 
6 117 85 8.2 0 
7 130 127 8.2 0 
8 100 125 3.85 0 
9 101 127 5.2 0 
10 139 143 6.9 1 
11 80 40 8.2 0 
12 61 65 6.9 0 
13 70 40 6.9 1 
... 
... 
... 
... 
... 
这里有 n 个方程, 表示成矩阵的形式就是 
Y = Xβ + ε, Y = (y1, y2, · · · , yn)T, β = (β0, β1, · · · , βp)T (5.4) 
X = 0BBBB@ 
1 x11 x12 · · · x1p 
1 x21 x22 · · · x2p 
... 
... 
...
... ... 
1 xn1 xn2 · · · xnp
1CCCCA
, ε = (ε1, ε2, · · · , εn)T (5.5) 
我们假定残差向量 ε 满足条件 
E(ε) = 0, cov(ε, ε) = σ2I (5.6) 
其中 σ2 是一个待估计的参数。我们把式 (5.4)、式 (5.5) 和式 (5.6) 称为经典线性回归模型 
(classical linear regression model)。 
5.2 最小二乘估计 
回归分析的一个目的是得到线性方程 (5.2), 并用它来做预测, 即给定一个新的数据 
(xi1, xi2, · · · , xip)T, 利用方程 (5.2) 得到相应的 yi。要确定方程 (5.2) 就必须用样本数据 
估计回归系数 β = (β0, β1, · · · , βp)T, 本节介绍一种估计回归系数的方法——最小二乘估计 
(least squares estimation)。 
117
我们先来考虑这样一个问题: 设 Y 是一个 n 维随机向量, 令 
.(a) = E (Y . a)T(Y . a), a ∈ Rn (5.7) 
当 a 为多少时 .(a) 最小呢? 设 EY = μ, 则有 
.(a)=E (Y . μ + μ . a)T(Y . μ + μ . a) =E (Y . μ)T(Y . μ)+ ∥μ . a∥2 (5.8) 
由此可以看出, 当且仅当 a = μ 时 .(a) 取得最小值。 
回到经典线性回归模型 (5.4~5.6), 如果 β 是回归系数的准确值, 则有 E(Y ) = E(Xβ+ 
ε) = Xβ, 此时 E[(Y . Xβ)T(Y . Xβ)] 是最小的, 而这个量可以近似地用 
J = (Y . Xβ)T(Y . Xβ) = 
n Xi=1
(yi . β0 . β1xi1 . · · · . βpxip)2 = ∥Y . Xβ∥2 (5.9) 
代替, 因此可以通过求解下列优化问题估计回归系数 β: 
min 
β∈Rp+1 
J = ∥Y . Xβ∥2 (5.10) 
这就是最小二乘估计法, 用此方法得到的估计量 bβ 称为 β 的最小二乘估计(量)(least 
squares estimation)。 
下面求最小二乘估计 bβ。注意到 
J = Y TY . 2Y TXβ + βTXTXβ (5.11) 
利用引理 4.1 得 
.J 
.β 
= 2(XTX)β . 2XTY (5.12) 
因此最小二乘估计 bβ 必须满足 
(XTX)bβ = XTY (5.13) 
如果 X 是列满秩的, 则 XTX 可逆, 于是得到 
bβ = (XTX).1XTY (5.14) 
这就是正规方程 (normal equation)。如果 X 不是列满秩的, 则根据 3.3.2 节的知识, 使 
得 ∥Y . Xβ∥ 取最小值的 β 不唯一, 其中范数最小的是 bβ = X+Y , 其中 X+ 表示 X 的 
Moore-Penrose 伪逆。 
综合以上讨论, 我们证明了以下定理。 
118
定理 5.1 在经典线性回归模型 (5.4~5.6) 中, 如果 X 是列满秩的, 则回归系数 β 的 
最小二乘估计由正规方程 (5.14) 给出; 如果 X 不是列满秩的, 则使得 ∥Y .Xβ∥ 取最小值 
的 β 不唯一, 其中范数最小的为 bβ = X+Y 。 
从定理 5.1 可立刻得出下列推论: 
推论 5.1 在经典线性回归模型 (5.4~5.6) 中, 回归系数 β 的最小二乘估计 bβ 满足 
E(bβ) = β, cov(bβ, bβ) = σ2(XTX).1 (5.15) 
证明 如果 X 是列满秩的, 则有 
E(bβ)=E ..(XTX).1XTY =E (XTX).1XT(Xβ + ε)=(XTX).1XTXβ = β (5.16) 
如果 X 不是列满秩的, 则有 
E(bβ) = E(X+Y ) = E[X+(Xβ + ε)] = X+Xβ = β (5.17) 
再注意到 
bβ . β = (XTX).1XTε, E(εεT) = σ2I (5.18) 
因此 
cov(bβ, bβ) = (XTX).1XTE(εεT)X(XTX).1 = σ2(XTX).1 (5.19) □ 
接下来考虑回归残差的估计 
bε = Y . bY = Y . Xbβ = Y . X(XTX).1XTY := (I . H)Y (5.20) 
其中 H := X(XTX).1XT 称为帽子矩阵 (hat matrix)。 
引理 5.1 设 X 是列满秩矩阵, H = X(XTX).1XT, 则下列等式成立: 
(I . H)2 = I . H (5.21) 
XT(I . H) = 0 (5.22) 
证明 注意到帽子矩阵 H 是幂等矩阵, 即满足 H2 = H(本章习题 1), 因此有 
(I . H)2 = I . H . H + H2 = I . H (5.23) 
等式 (5.22) 的证明留作练习(本章习题 2)。 □ 
定理 5.2 残差估计量 bε 的均值和协方差阵分别为 
E(bε) = 0, cov(bε, bε) = σ2(I . H), E(bεTbε) = (n . p . 1)σ2 (5.24) 
证明 注意到 
bε = (I . H)Y = (I . H)(Xβ + ε) (5.25) 
119
再由式 (5.22) 得 (I . H)X = 0, 因此有 
E(bε) = (I . H)Xβ = 0 (5.26) 
cov(bε, bε) = (I . H)E(εεT)(I . H)T = σ2(I . H)2 = σ2(I . H) (5.27) 
再注意到
tr(H) = tr(X(XTX).1XT) = tr((XTX).1XTX) = tr(Ip+1) = p + 1 (5.28) 
因此有 
E(bεTbε) = 
n Xi=1 
var(bεi) = tr (cov(bε, bε)) = σ2tr(In . H) 
= σ2 [tr(In) . tr(H)] = (n . p . 1)σ2 (5.29) □ 
注: 之所以关心 bεTbε 的性质, 是因为它是回归残差估计的平方和: 
bεTbε=(Y . bY )T(Y . bY ) = 
n Xi=1
(yi . byi)2 
= 
n Xi=1
(yi . bβ0 . bβ1xi1 . bβ2xi2 . · · · . bβpxip)2 (5.30) 
定理 5.3 残差估计量 bε 满足下列性质: 
XTbε = 0 (5.31) 
bY Tbε = 0 (5.32) 
bεTbε = Y T(I . H)Y (5.33) 
证明 式 (5.31) 可由式 (5.22) 直接得到。至于式 (5.32), 只需要注意到 
bY = HY, bε = (I . H)Y, H2 = H (5.34) 
便可得到 
bY Tbε = Y THT(I . H)Y = Y TH(I . H)Y = Y T(H . H2)Y = 0 (5.35) 
式 (5.33) 可由式 (5.21) 直接得到。 □ 
定理 5.4 最小二乘估计量 bβ 和 bε 是不相关的。 
证明 根据推论 5.1 及定理 5.2, 得 E(bβ) = β,E(bε) = 0, 因此 
cov(bβ, bε)=E h(bβ . β)bεTi= E hbβbεTi= E (XTX).1XTY bεT 
120
=E (XTX).1XTY Y T(I . H) =(XTX).1XTE(Y Y T)(I . H) (5.36) 
再注意到 
E(Y Y T) = E (Xβ + ε)(Xβ + ε)T= XββTXT + σ2I (5.37) 
将式 (5.37) 代入式 (5.36) 的最后一个表达式, 并利用式 (5.22) 得到 cov(bβ, bε) = 0, 定理 
得证。 □ 
对于任意向量 c ∈ Rp+1, 考虑参数 θ = cTβ 的线性无偏估计量 (linear unbiased 
estimator), 即形如 aTY 的无偏统计量, 根据定理 5.1 和推论 5.1, bβ 是 β 的线性无偏估计 
量, 因此 cT bβ 是 cTβ 的线性无偏估计量, 不仅如此, cT bβ 还是 cTβ 的所有线性无偏估计量 
中方差最小的, 这就是下面的定理: 
定理 5.5 在经典线性回归模型中, 设 X 是列满秩的, bβ 是回归系数 β 的最小二乘估 
计, c ∈ Rp+1, 则对于 cTβ 的任意一个线性无偏估计量 aTY 皆有 
var(aTY ) . var(cT bβ) (5.38) 
即 cT bβ 是 cTβ 的最小方差线性无偏估计量 (minimum-variance linear unbiased estimator) 
或者最佳线性无偏估计量 (best linear unbiased estimator, BLUE)。 
证明 首先, aTY 是 cTβ 的线性无偏估计量意味着 
cTβ = E[aTY ] = E[aT(Xβ + ε)] = aTXβ (5.39) 
这个等式必须对所有 β ∈ Rp+1 皆成立, 因此必有 XTa = c。于是 
var(aTY )=var(aTXβ + aTε) = var(aTε) = aT(σ2I)a = σ2aTa (5.40) 
var(cT bβ)=var(cT(XTX).1XTY ) = var(cT(XTX).1XTε) 
=var(aTX(XTX).1XTε) 
=var(aTHε) 
=σ2aTHHTa 
=σ2aTHa (5.41) 
var(aTY ) . var(cT bβ)=σ2aT(I . H)a (5.42) 
其中 H 是帽子矩阵, 式 (5.41) 推导的最后两个等号用到了 H 的对称性和幂等性(本章习 
题 1)。既然 H 是幂等的, 其特征值只能是 1 或 0(本章习题 3), 因此 I .H 是半正定的, 
从而有 
var(aTY ) . var(cT bβ) . 0 (5.43) □ 
121
接下来考虑响应变量 y 的平方和分解问题。记 
S2T
= 
n Xi=1
(yi . y)2, y = 
1
n 
n Xi=1 
yi (5.44) 
称 S2T
为总离差平方和 (total sum of squares), 反映了响应变量 y 的变异程度。bY = Xbβ 
是响应变量 y 的回归估计, 它与 Y 不一致, 其偏差 bε = Y . bY 就是回归残差的估计。根据 
定理 5.2 得 
XT(Y . bY ) = XTbε = 0 (5.45) 
由于 X 的第一列元素全是 1, 因此有 
n Xi=1
(yi . byi) = 0 (5.46) 
由此推出 y = .y。称 
S2
Reg := 
n Xi=1
(byi . .y)2 = 
n Xi=1
(byi . y)2 (5.47) 
为回归平方和 (regression sum of squares)。称 
S2
Res := 
n Xi=1 bε2i
= 
n Xi=1
(yi . byi)2 (5.48) 
为残差平方和 (residual sum of squares)。关于这 3 个量之间的关系, 有下列定理: 
定理 5.6 在经典线性回归模型中, 总离差平方和 S2T
、回归平方和 S2
Reg、残差平方和 
R2
Res 三者满足下列关系: 
S2T
= S2
Reg + S2
Res (5.49) 
证明 根据定理 5.2 得 bY Tbε = 0, 于是有 
S2T
= Y TY . n(y)2 = (bY + bε)T(bY + bε) . n(y)2 = bY T bY . n(.y)2 + bεTbε 
= S2
Reg + S2
Res (5.50) □ 
回归平方和 S2
Reg 是线性回归模型能够解释的那部分变异性, 它所占的比例为 
R2 := 
S2
Reg 
S2T 
(5.51) 
通常称之为决定系数 (coefficient of determination), 其大小反映了线性回归模型拟合 
样本数据的能力。 
122
5.3 几 何 解 释 
本节讨论回归分析的几何解释。回归分析本质上是用解释变量的线性组合逼近被解释 
变量, 在内积空间的框架下讨论这个问题更方便。考虑定义在概率空间 (Ω,F, P) 上的随机 
变量 X, 如果 E(|X|) < ∞ 且 E(|X|2) < ∞, 则称 X 是具有有限二阶矩的。如果 X 具有 
有限二阶矩, 则 
DX = E[(X . EX)2] = E[X2 . 2XEX + (EX)2] 
= E(X2) . (EX)2 . E(|X|2) < ∞ (5.52) 
因此 X 具有有限方差。定义在 (Ω,F, P) 上的所有二阶矩有限的随机变量构成一个线性空 
间, 记作 L2(Ω)。在 L2(Ω) 上可以按照如下方式定义一个内积: 
.X, Y .L2 = E(XY ) (5.53) 
则 L2(Ω) 关于这个内积构成一个内积空间。由这个内积诱导的范数为 
∥X∥L2 = p.X,X.L2 = pE(|X|2) (5.54) 
设 Y,X1,X2, · · · ,Xp ∈ L2(Ω), 记由 1,X1,X2, · · · ,Xp 生成的线性子空间为 Vp, 我们希望 
找到一个随机变量 bY ∈ Vp, 使得 
∥Y . bY ∥L2 . ∥Y . Z∥L2 , .Z ∈ Vp (5.55) 
称满足此条件的 bY 为 Y 在子空间 Vp 上的最佳(线性)逼近元。寻找最佳逼近元可以通过 
求解下列优化问题实现: 
min 
β=(β0,β1,··· ,βp)∈Rp+1 ∥Y . β0 . β1X1 . · · · . βpXp∥L2 (5.56) 
这正是最小二乘问题。 
最佳逼近元的存在性是有限维赋范线性空间局部紧性的结果, 其证明在泛函分析教材 
中可以找到, 如文献 [75]。最佳逼近元的唯一性有下列定理作为保障: 
定理 5.7 设 (Ω,F, P) 是概率空间, Y,X1,X2, · · · ,Xp ∈ L2(Ω), Vp = Span{1,X1, 
X2, · · · ,Xp}, 则 Y 在 Vp 上的最佳逼近元是唯一的。如果 1,X1,X2, · · · ,Xp 是线性无关 
的, 则优化问题 (5.56) 的解是唯一的。 
证明 事实上, 设 
d = min 
Z∈Vp ∥Y . Z∥L2 (5.57) 
如果 d = 0, 则 Y 的最佳逼近元 bY 必与 Y 相等, 因此是唯一的; 如果 d > 0, 设 Y ′, Y ′′ 都 
是 Y 在 Vp 上的最佳逼近元, 则有 
∥Y . Y ′∥L2 = ∥Y . Y ′′∥L2 = d (5.58) 
123
于是 





Y . 
Y ′ + Y ′′ 
2 




2
L2 
=




Y . Y ′ 
2 
+ 
Y . Y ′′ 
2 




2
L2 
=




Y . Y ′ 
2 




2
L2 
+




Y . Y ′′ 
2 




2
L2 
+ 2Y . Y ′ 
2 
, 
Y . Y ′′ 
2 L2 
= 
d2 
2 
+ 
1
2.Y . Y ′, Y . Y ′′.L2 (5.59) 
如果 Y ′ .= Y ′′, 则 Y . Y ′ .= Y . Y ′′, 且由于它们长度相等, 因此夹角大于 0, 从而有 
.Y . Y ′, Y . Y ′′.L2 < ∥Y . Y ′∥ · ∥Y . Y ′′∥ = d2 (5.60) 
联合式 (5.59) 与式 (5.60) 得到





Y . 
Y ′ + Y ′′ 
2 



L2 
< d (5.61) 
但这与式 (5.57) 矛盾, 因此必然有 Y ′ = Y ′′。当 1,X1,X2, · · · ,Xp 线性无关时, Y 在子空 
间 Vp 上的最佳逼近元 bY 有唯一的线性表示, 因此优化问题 (5.56) 的解是唯一的。 □ 
记 εY = Y . bY , 即 Y 与它在 Vp 上的最佳逼近元 bY 之差, 称为最佳逼近误差或回归 
残差。
命题 5.1 设 bY 是 Y 在 Vp 上的最佳逼近元, εY = Y . bY 是回归残差, 则有 
.εY ,Z.L2 = 0, .Z ∈ Vp (5.62) 
即 bY 是 Y 在 Vp 上的正交投影。 
证明 考虑下列关于实变量 t 的函数 
φ(t) = ∥εY . tZ∥2
L2 . ∥εY ∥2
L2 (5.63) 
由于 
∥εY ∥L2 = ∥Y . bY ∥L2 = min 
Z′∈Vp ∥Y . Z′∥ . ∥Y . bY . tZ∥L2 = ∥εY . tZ∥L2 (5.64) 
因此 φ(t) 是非负的。再注意到 φ(t) 是一个二次函数: 
φ(t) = .εY . tZ, εY . tZ.L2 . ∥εY ∥2
L2 = t2∥Z∥2
L2 . 2t.εY ,Z.L2 (5.65) 
要使 φ(t) 恒为非负, 必须 .εY ,Z.L2 = 0, 这就证明了式 (5.62)。 □ 
由式 (5.62) 还可以得到 
EεY =.εY , 1.L2 = 0 (5.66) 
.εY , Y .L2 =.εY , Y . bY + bY .L2 = .εY , εY + bY .L2 = .εY , εY .L2 = DεY (5.67) 
124
如果另有一个随机变量 Z ∈ L2(Ω), 设 bZ 是 Z 在 Vp 上的最佳逼近, εZ = Z . bZ 是回归残 
差, 则有 
.εY ,Z.L2 = .εY ,Z . bZ + bZ.L2 = .εY , εZ + bZ.L2 = .εY , εZ.L2 = cov(εY , εZ) (5.68) 
接下来考虑优化问题 (5.56) 的解。先考虑 p = 1 的情形。令 
J =∥Y . β0 . β1X1∥2
L2 
=∥Y ∥2
L2 + β2
0 + β2
1∥X1∥2
L2 . 2β0.Y, 1.L2 . 2β1.Y,X1.L2 + 2β0β1.1,X1.L2 
=E(Y 2) + β2
0 + β2
1E(X2
1 ) . 2β0EY . 2β1E(X1Y ) + 2β0β1EX1 (5.69) 
极小值点应满足下列一阶条件 
8>
><>
>: 
.J 
.β0 
= 2β0 . 2EY + 2β1EX1 = 0 
.J 
.β1 
= 2β1E(X2
1 ) . 2E(X1Y ) + 2β0EX1 = 0 
(5.70) 
由此求得极小值点为
bβ0 = EY . 
cov(Y,X1) 
DX1 
EX1, bβ1 = 
cov(Y,X1) 
DX1 
(5.71) 
对于一般的情形, 设 Y 在 Vp 上的最佳逼近元 bY := bβ0 + 
p Pj=1 bβjXj , 记 μY = EY, μj = 
EXj , j = 1, 2, · · · , p, 由式 (5.66) 得 
μY = EY = EbY = bβ0 + 
p Xj=1 bβjμj (5.72) 
因此有 
εY = Y . bY = Y . μY . (bY . μY ) = Y . μY . 
p Xj=1 bβj(Xj . μj) (5.73) 
根据命题 (5.1), 回归残差 εY 与 Vp 正交, 因此有 
0=.εY ,Xk . μk.L2 = .Y . μY ,Xk . μk.L2 . 
p Xj=1 bβj.Xj . μj ,Xk . μk.L2 
=σY,Xk . 
p Xj=1 bβjσjk, k = 1, 2, · · · , p (5.74) 
其中 σY,Xk = cov(Y,Xk), σkj = cov(Xk,Xj), j, k = 1, 2, · · · , p。记 
ΣXX =
0BBBB@ σ11 σ12 · · · σ1p 
σ21 σ22 · · · σ2p 
... 
...
... ... 
σp1 σp2 · · · σpp
1CCCCA
, ΣXY =
0BBBB@ 
σY,X1 
σY,X2 ... 
σY,Xp
1CCCCA
, bβ =0BBBB@
bβ1 
bβ2
... 
bβp 
1CCCCA 
(5.75) 
125