学习要点 1. 理解经典线性回归模型。 2. 掌握最小二乘估计及其性质。 3. 理解最小二乘估计的几何解释。 4. 理解偏相关系数的概念、性质及计算公式。 5. 掌握线性回归模型的推断及评价。 6. 掌握线性回归分析的 MATLAB 实现。 7. 会用线性回归模型解决实际数据分析问题。 5.1 线性回归模型 我们先来看一个例子。 例 5.1 表 5.1 是来自 4 个不同城市的二手住宅房销售数据 (完整的数据在“二手住 宅房销售调查数据.xlsx”文件中)。请分析住宅房成交价格 (y) 与建筑面积 (x1)、城市人均 年收入 (x2)、是否学区房 (x3) 之间的关系。 我们想要找到 y 与 xi, i = 1, 2, 3 之间的依赖关系, 首先想到的是下列线性函数 y = β0 + β1x1 + β2x2 + β3x3 + ε (5.1) 这就是多元线性回归模型 (multivariate linear regression model), 其中 y 称为应变量 (dependent variable) 或响应变量 (response variable), xi 称为解释变量 (explanatory variable) 或预测变量 (predictor variable), ε 称为残差项, 代表数据中不能被这 个模型解释的部分, 一般假定它是一个随机变量。βi, i = 0, 1, 2, 3 称为回归系数, 是未知的, 需要通过样本数据估计。我们这里所说的“线性”是指式 (5.1) 对回归系数是线性的, 而解 释变量 xi 可以替换成它们的非线性变换, 如 x2i 、x2i xj 等, 都不会改变线性模型的本质, 虽 然叫法可能不一样。更一般地, 含有 p 个自变量的线性回归模型为 y = β0 + β1x1 + β2x2 + · · · + βpxp + ε (5.2) 为了估计回归系数, 需要收集样本数据 {(xi, yi) : i = 1, 2, · · · , n}, 其中 xi = (xi1, xi2, · · · , xip)T ∈ Rp, yi ∈ R。这时, 完整的线性回归模型为 yi = β0 + β1xi1 + β2xi2 + · · · + βpxip + εi, i = 1, 2, · · · , n (5.3) 表 5.1 二手住宅房销售调查数据 序 号 成交价 (万元) 建筑面积 (平方米) 城市人均年收入 (万元) 是否学区房 1 81 90 6.9 0 2 115 101 8.2 0 3 102 90 5.2 0 4 89 100 6.9 0 5 71 85 3.85 0 6 117 85 8.2 0 7 130 127 8.2 0 8 100 125 3.85 0 9 101 127 5.2 0 10 139 143 6.9 1 11 80 40 8.2 0 12 61 65 6.9 0 13 70 40 6.9 1 ... ... ... ... ... 这里有 n 个方程, 表示成矩阵的形式就是 Y = Xβ + ε, Y = (y1, y2, · · · , yn)T, β = (β0, β1, · · · , βp)T (5.4) X = 0BBBB@ 1 x11 x12 · · · x1p 1 x21 x22 · · · x2p ... ... ... ... ... 1 xn1 xn2 · · · xnp 1CCCCA , ε = (ε1, ε2, · · · , εn)T (5.5) 我们假定残差向量 ε 满足条件 E(ε) = 0, cov(ε, ε) = σ2I (5.6) 其中 σ2 是一个待估计的参数。我们把式 (5.4)、式 (5.5) 和式 (5.6) 称为经典线性回归模型 (classical linear regression model)。 5.2 最小二乘估计 回归分析的一个目的是得到线性方程 (5.2), 并用它来做预测, 即给定一个新的数据 (xi1, xi2, · · · , xip)T, 利用方程 (5.2) 得到相应的 yi。要确定方程 (5.2) 就必须用样本数据 估计回归系数 β = (β0, β1, · · · , βp)T, 本节介绍一种估计回归系数的方法——最小二乘估计 (least squares estimation)。 117 我们先来考虑这样一个问题: 设 Y 是一个 n 维随机向量, 令 .(a) = E (Y . a)T(Y . a), a ∈ Rn (5.7) 当 a 为多少时 .(a) 最小呢? 设 EY = μ, 则有 .(a)=E (Y . μ + μ . a)T(Y . μ + μ . a) =E (Y . μ)T(Y . μ)+ ∥μ . a∥2 (5.8) 由此可以看出, 当且仅当 a = μ 时 .(a) 取得最小值。 回到经典线性回归模型 (5.4~5.6), 如果 β 是回归系数的准确值, 则有 E(Y ) = E(Xβ+ ε) = Xβ, 此时 E[(Y . Xβ)T(Y . Xβ)] 是最小的, 而这个量可以近似地用 J = (Y . Xβ)T(Y . Xβ) = n Xi=1 (yi . β0 . β1xi1 . · · · . βpxip)2 = ∥Y . Xβ∥2 (5.9) 代替, 因此可以通过求解下列优化问题估计回归系数 β: min β∈Rp+1 J = ∥Y . Xβ∥2 (5.10) 这就是最小二乘估计法, 用此方法得到的估计量 bβ 称为 β 的最小二乘估计(量)(least squares estimation)。 下面求最小二乘估计 bβ。注意到 J = Y TY . 2Y TXβ + βTXTXβ (5.11) 利用引理 4.1 得 .J .β = 2(XTX)β . 2XTY (5.12) 因此最小二乘估计 bβ 必须满足 (XTX)bβ = XTY (5.13) 如果 X 是列满秩的, 则 XTX 可逆, 于是得到 bβ = (XTX).1XTY (5.14) 这就是正规方程 (normal equation)。如果 X 不是列满秩的, 则根据 3.3.2 节的知识, 使 得 ∥Y . Xβ∥ 取最小值的 β 不唯一, 其中范数最小的是 bβ = X+Y , 其中 X+ 表示 X 的 Moore-Penrose 伪逆。 综合以上讨论, 我们证明了以下定理。 118 定理 5.1 在经典线性回归模型 (5.4~5.6) 中, 如果 X 是列满秩的, 则回归系数 β 的 最小二乘估计由正规方程 (5.14) 给出; 如果 X 不是列满秩的, 则使得 ∥Y .Xβ∥ 取最小值 的 β 不唯一, 其中范数最小的为 bβ = X+Y 。 从定理 5.1 可立刻得出下列推论: 推论 5.1 在经典线性回归模型 (5.4~5.6) 中, 回归系数 β 的最小二乘估计 bβ 满足 E(bβ) = β, cov(bβ, bβ) = σ2(XTX).1 (5.15) 证明 如果 X 是列满秩的, 则有 E(bβ)=E ..(XTX).1XTY =E (XTX).1XT(Xβ + ε)=(XTX).1XTXβ = β (5.16) 如果 X 不是列满秩的, 则有 E(bβ) = E(X+Y ) = E[X+(Xβ + ε)] = X+Xβ = β (5.17) 再注意到 bβ . β = (XTX).1XTε, E(εεT) = σ2I (5.18) 因此 cov(bβ, bβ) = (XTX).1XTE(εεT)X(XTX).1 = σ2(XTX).1 (5.19) □ 接下来考虑回归残差的估计 bε = Y . bY = Y . Xbβ = Y . X(XTX).1XTY := (I . H)Y (5.20) 其中 H := X(XTX).1XT 称为帽子矩阵 (hat matrix)。 引理 5.1 设 X 是列满秩矩阵, H = X(XTX).1XT, 则下列等式成立: (I . H)2 = I . H (5.21) XT(I . H) = 0 (5.22) 证明 注意到帽子矩阵 H 是幂等矩阵, 即满足 H2 = H(本章习题 1), 因此有 (I . H)2 = I . H . H + H2 = I . H (5.23) 等式 (5.22) 的证明留作练习(本章习题 2)。 □ 定理 5.2 残差估计量 bε 的均值和协方差阵分别为 E(bε) = 0, cov(bε, bε) = σ2(I . H), E(bεTbε) = (n . p . 1)σ2 (5.24) 证明 注意到 bε = (I . H)Y = (I . H)(Xβ + ε) (5.25) 119 再由式 (5.22) 得 (I . H)X = 0, 因此有 E(bε) = (I . H)Xβ = 0 (5.26) cov(bε, bε) = (I . H)E(εεT)(I . H)T = σ2(I . H)2 = σ2(I . H) (5.27) 再注意到 tr(H) = tr(X(XTX).1XT) = tr((XTX).1XTX) = tr(Ip+1) = p + 1 (5.28) 因此有 E(bεTbε) = n Xi=1 var(bεi) = tr (cov(bε, bε)) = σ2tr(In . H) = σ2 [tr(In) . tr(H)] = (n . p . 1)σ2 (5.29) □ 注: 之所以关心 bεTbε 的性质, 是因为它是回归残差估计的平方和: bεTbε=(Y . bY )T(Y . bY ) = n Xi=1 (yi . byi)2 = n Xi=1 (yi . bβ0 . bβ1xi1 . bβ2xi2 . · · · . bβpxip)2 (5.30) 定理 5.3 残差估计量 bε 满足下列性质: XTbε = 0 (5.31) bY Tbε = 0 (5.32) bεTbε = Y T(I . H)Y (5.33) 证明 式 (5.31) 可由式 (5.22) 直接得到。至于式 (5.32), 只需要注意到 bY = HY, bε = (I . H)Y, H2 = H (5.34) 便可得到 bY Tbε = Y THT(I . H)Y = Y TH(I . H)Y = Y T(H . H2)Y = 0 (5.35) 式 (5.33) 可由式 (5.21) 直接得到。 □ 定理 5.4 最小二乘估计量 bβ 和 bε 是不相关的。 证明 根据推论 5.1 及定理 5.2, 得 E(bβ) = β,E(bε) = 0, 因此 cov(bβ, bε)=E h(bβ . β)bεTi= E hbβbεTi= E (XTX).1XTY bεT 120 =E (XTX).1XTY Y T(I . H) =(XTX).1XTE(Y Y T)(I . H) (5.36) 再注意到 E(Y Y T) = E (Xβ + ε)(Xβ + ε)T= XββTXT + σ2I (5.37) 将式 (5.37) 代入式 (5.36) 的最后一个表达式, 并利用式 (5.22) 得到 cov(bβ, bε) = 0, 定理 得证。 □ 对于任意向量 c ∈ Rp+1, 考虑参数 θ = cTβ 的线性无偏估计量 (linear unbiased estimator), 即形如 aTY 的无偏统计量, 根据定理 5.1 和推论 5.1, bβ 是 β 的线性无偏估计 量, 因此 cT bβ 是 cTβ 的线性无偏估计量, 不仅如此, cT bβ 还是 cTβ 的所有线性无偏估计量 中方差最小的, 这就是下面的定理: 定理 5.5 在经典线性回归模型中, 设 X 是列满秩的, bβ 是回归系数 β 的最小二乘估 计, c ∈ Rp+1, 则对于 cTβ 的任意一个线性无偏估计量 aTY 皆有 var(aTY ) . var(cT bβ) (5.38) 即 cT bβ 是 cTβ 的最小方差线性无偏估计量 (minimum-variance linear unbiased estimator) 或者最佳线性无偏估计量 (best linear unbiased estimator, BLUE)。 证明 首先, aTY 是 cTβ 的线性无偏估计量意味着 cTβ = E[aTY ] = E[aT(Xβ + ε)] = aTXβ (5.39) 这个等式必须对所有 β ∈ Rp+1 皆成立, 因此必有 XTa = c。于是 var(aTY )=var(aTXβ + aTε) = var(aTε) = aT(σ2I)a = σ2aTa (5.40) var(cT bβ)=var(cT(XTX).1XTY ) = var(cT(XTX).1XTε) =var(aTX(XTX).1XTε) =var(aTHε) =σ2aTHHTa =σ2aTHa (5.41) var(aTY ) . var(cT bβ)=σ2aT(I . H)a (5.42) 其中 H 是帽子矩阵, 式 (5.41) 推导的最后两个等号用到了 H 的对称性和幂等性(本章习 题 1)。既然 H 是幂等的, 其特征值只能是 1 或 0(本章习题 3), 因此 I .H 是半正定的, 从而有 var(aTY ) . var(cT bβ) . 0 (5.43) □ 121 接下来考虑响应变量 y 的平方和分解问题。记 S2T = n Xi=1 (yi . y)2, y = 1 n n Xi=1 yi (5.44) 称 S2T 为总离差平方和 (total sum of squares), 反映了响应变量 y 的变异程度。bY = Xbβ 是响应变量 y 的回归估计, 它与 Y 不一致, 其偏差 bε = Y . bY 就是回归残差的估计。根据 定理 5.2 得 XT(Y . bY ) = XTbε = 0 (5.45) 由于 X 的第一列元素全是 1, 因此有 n Xi=1 (yi . byi) = 0 (5.46) 由此推出 y = .y。称 S2 Reg := n Xi=1 (byi . .y)2 = n Xi=1 (byi . y)2 (5.47) 为回归平方和 (regression sum of squares)。称 S2 Res := n Xi=1 bε2i = n Xi=1 (yi . byi)2 (5.48) 为残差平方和 (residual sum of squares)。关于这 3 个量之间的关系, 有下列定理: 定理 5.6 在经典线性回归模型中, 总离差平方和 S2T 、回归平方和 S2 Reg、残差平方和 R2 Res 三者满足下列关系: S2T = S2 Reg + S2 Res (5.49) 证明 根据定理 5.2 得 bY Tbε = 0, 于是有 S2T = Y TY . n(y)2 = (bY + bε)T(bY + bε) . n(y)2 = bY T bY . n(.y)2 + bεTbε = S2 Reg + S2 Res (5.50) □ 回归平方和 S2 Reg 是线性回归模型能够解释的那部分变异性, 它所占的比例为 R2 := S2 Reg S2T (5.51) 通常称之为决定系数 (coefficient of determination), 其大小反映了线性回归模型拟合 样本数据的能力。 122 5.3 几 何 解 释 本节讨论回归分析的几何解释。回归分析本质上是用解释变量的线性组合逼近被解释 变量, 在内积空间的框架下讨论这个问题更方便。考虑定义在概率空间 (Ω,F, P) 上的随机 变量 X, 如果 E(|X|) < ∞ 且 E(|X|2) < ∞, 则称 X 是具有有限二阶矩的。如果 X 具有 有限二阶矩, 则 DX = E[(X . EX)2] = E[X2 . 2XEX + (EX)2] = E(X2) . (EX)2 . E(|X|2) < ∞ (5.52) 因此 X 具有有限方差。定义在 (Ω,F, P) 上的所有二阶矩有限的随机变量构成一个线性空 间, 记作 L2(Ω)。在 L2(Ω) 上可以按照如下方式定义一个内积: .X, Y .L2 = E(XY ) (5.53) 则 L2(Ω) 关于这个内积构成一个内积空间。由这个内积诱导的范数为 ∥X∥L2 = p.X,X.L2 = pE(|X|2) (5.54) 设 Y,X1,X2, · · · ,Xp ∈ L2(Ω), 记由 1,X1,X2, · · · ,Xp 生成的线性子空间为 Vp, 我们希望 找到一个随机变量 bY ∈ Vp, 使得 ∥Y . bY ∥L2 . ∥Y . Z∥L2 , .Z ∈ Vp (5.55) 称满足此条件的 bY 为 Y 在子空间 Vp 上的最佳(线性)逼近元。寻找最佳逼近元可以通过 求解下列优化问题实现: min β=(β0,β1,··· ,βp)∈Rp+1 ∥Y . β0 . β1X1 . · · · . βpXp∥L2 (5.56) 这正是最小二乘问题。 最佳逼近元的存在性是有限维赋范线性空间局部紧性的结果, 其证明在泛函分析教材 中可以找到, 如文献 [75]。最佳逼近元的唯一性有下列定理作为保障: 定理 5.7 设 (Ω,F, P) 是概率空间, Y,X1,X2, · · · ,Xp ∈ L2(Ω), Vp = Span{1,X1, X2, · · · ,Xp}, 则 Y 在 Vp 上的最佳逼近元是唯一的。如果 1,X1,X2, · · · ,Xp 是线性无关 的, 则优化问题 (5.56) 的解是唯一的。 证明 事实上, 设 d = min Z∈Vp ∥Y . Z∥L2 (5.57) 如果 d = 0, 则 Y 的最佳逼近元 bY 必与 Y 相等, 因此是唯一的; 如果 d > 0, 设 Y ′, Y ′′ 都 是 Y 在 Vp 上的最佳逼近元, 则有 ∥Y . Y ′∥L2 = ∥Y . Y ′′∥L2 = d (5.58) 123 于是 Y . Y ′ + Y ′′ 2 2 L2 = Y . Y ′ 2 + Y . Y ′′ 2 2 L2 = Y . Y ′ 2 2 L2 + Y . Y ′′ 2 2 L2 + 2Y . Y ′ 2 , Y . Y ′′ 2 L2 = d2 2 + 1 2.Y . Y ′, Y . Y ′′.L2 (5.59) 如果 Y ′ .= Y ′′, 则 Y . Y ′ .= Y . Y ′′, 且由于它们长度相等, 因此夹角大于 0, 从而有 .Y . Y ′, Y . Y ′′.L2 < ∥Y . Y ′∥ · ∥Y . Y ′′∥ = d2 (5.60) 联合式 (5.59) 与式 (5.60) 得到 Y . Y ′ + Y ′′ 2 L2 < d (5.61) 但这与式 (5.57) 矛盾, 因此必然有 Y ′ = Y ′′。当 1,X1,X2, · · · ,Xp 线性无关时, Y 在子空 间 Vp 上的最佳逼近元 bY 有唯一的线性表示, 因此优化问题 (5.56) 的解是唯一的。 □ 记 εY = Y . bY , 即 Y 与它在 Vp 上的最佳逼近元 bY 之差, 称为最佳逼近误差或回归 残差。 命题 5.1 设 bY 是 Y 在 Vp 上的最佳逼近元, εY = Y . bY 是回归残差, 则有 .εY ,Z.L2 = 0, .Z ∈ Vp (5.62) 即 bY 是 Y 在 Vp 上的正交投影。 证明 考虑下列关于实变量 t 的函数 φ(t) = ∥εY . tZ∥2 L2 . ∥εY ∥2 L2 (5.63) 由于 ∥εY ∥L2 = ∥Y . bY ∥L2 = min Z′∈Vp ∥Y . Z′∥ . ∥Y . bY . tZ∥L2 = ∥εY . tZ∥L2 (5.64) 因此 φ(t) 是非负的。再注意到 φ(t) 是一个二次函数: φ(t) = .εY . tZ, εY . tZ.L2 . ∥εY ∥2 L2 = t2∥Z∥2 L2 . 2t.εY ,Z.L2 (5.65) 要使 φ(t) 恒为非负, 必须 .εY ,Z.L2 = 0, 这就证明了式 (5.62)。 □ 由式 (5.62) 还可以得到 EεY =.εY , 1.L2 = 0 (5.66) .εY , Y .L2 =.εY , Y . bY + bY .L2 = .εY , εY + bY .L2 = .εY , εY .L2 = DεY (5.67) 124 如果另有一个随机变量 Z ∈ L2(Ω), 设 bZ 是 Z 在 Vp 上的最佳逼近, εZ = Z . bZ 是回归残 差, 则有 .εY ,Z.L2 = .εY ,Z . bZ + bZ.L2 = .εY , εZ + bZ.L2 = .εY , εZ.L2 = cov(εY , εZ) (5.68) 接下来考虑优化问题 (5.56) 的解。先考虑 p = 1 的情形。令 J =∥Y . β0 . β1X1∥2 L2 =∥Y ∥2 L2 + β2 0 + β2 1∥X1∥2 L2 . 2β0.Y, 1.L2 . 2β1.Y,X1.L2 + 2β0β1.1,X1.L2 =E(Y 2) + β2 0 + β2 1E(X2 1 ) . 2β0EY . 2β1E(X1Y ) + 2β0β1EX1 (5.69) 极小值点应满足下列一阶条件 8> ><> >: .J .β0 = 2β0 . 2EY + 2β1EX1 = 0 .J .β1 = 2β1E(X2 1 ) . 2E(X1Y ) + 2β0EX1 = 0 (5.70) 由此求得极小值点为 bβ0 = EY . cov(Y,X1) DX1 EX1, bβ1 = cov(Y,X1) DX1 (5.71) 对于一般的情形, 设 Y 在 Vp 上的最佳逼近元 bY := bβ0 + p Pj=1 bβjXj , 记 μY = EY, μj = EXj , j = 1, 2, · · · , p, 由式 (5.66) 得 μY = EY = EbY = bβ0 + p Xj=1 bβjμj (5.72) 因此有 εY = Y . bY = Y . μY . (bY . μY ) = Y . μY . p Xj=1 bβj(Xj . μj) (5.73) 根据命题 (5.1), 回归残差 εY 与 Vp 正交, 因此有 0=.εY ,Xk . μk.L2 = .Y . μY ,Xk . μk.L2 . p Xj=1 bβj.Xj . μj ,Xk . μk.L2 =σY,Xk . p Xj=1 bβjσjk, k = 1, 2, · · · , p (5.74) 其中 σY,Xk = cov(Y,Xk), σkj = cov(Xk,Xj), j, k = 1, 2, · · · , p。记 ΣXX = 0BBBB@ σ11 σ12 · · · σ1p σ21 σ22 · · · σ2p ... ... ... ... σp1 σp2 · · · σpp 1CCCCA , ΣXY = 0BBBB@ σY,X1 σY,X2 ... σY,Xp 1CCCCA , bβ =0BBBB@ bβ1 bβ2 ... bβp 1CCCCA (5.75) 125