监督学习是指利用带有标记的样本数据来完成拟合或者分类任务。第 2 章介绍的统计 
学习方法需要已知先验概率 p(wi) 和类条件概率密度 p(x|wi) 的形式，其中类条件概率需 
要通过参数化或者非参数化方法进行估计。然而，在特征维数较高、内在关系复杂或者样 
本数量较少时，很难精确估计类条件概率密度。若能够直接通过样本数据生成拟合函数或 
者判别函数，则能够在一定程度上避免统计学习方法的局限。 
基于样本数据的拟合函数或者分类器设计需要确定三个要素：.1 拟合函数或者分类器 
类型（参数化函数集合）；.2 拟合或分类的目标准则，即最优化模型的目标函数；.3 拟合 
函数或者分类模型的参数值，即设计最优化算法。不同的函数类型、不同的目标准则以及 
不同的优化算法决定了不同的拟合或分类效果。 
本章内容分成 5 节： 
3.1 节介绍的最小二乘法主要用于解决线性回归问题，而线性概率回归方法主要用于 
解决逻辑回归（或分类）问题。 
3.2 节首先介绍支持向量机，主要用于解决线性二分类问题；接着介绍软间隔支持向量 
机，用于处理少量样本无法线性分类的情形；最后介绍支持向量回归，用于解决鲁棒线性 
回归问题。 
3.3 节介绍的核方法主要用于解决非线性拟合或分类问题。其主要思路是将低维空间 
的非线性回归或分类问题转换成高维空间的线性回归或分类问题，然后设计核函数并使用 
最小二乘法或者支持向量机来实现拟合或分类功能。 
3.4 节介绍神经网络以及误差反向传播算法。由于神经网络的强大拟合能力，其能够实 
现复杂非线性拟合或分类功能，并广泛应用于语音和图像处理。 
3.5 节介绍复合学习方法，通过构建多个学习器来实现稳定可靠的学习或分类任务。复 
合方法包括空间上的并行方式、时间上的序贯方式以及在结构上的嵌套方式。除了基本的 
集成学习算法外，本节还简要介绍了迁移学习、终身学习和元学习的基本原理。 
3.1 最小二乘法 
3.1.1 线性回归 
统计回归是指在给定自变量 x1, · · · , xd 观测值的情况下对因变量 y 进行预测，在社会 
和科学领域有着很多应用。若因变量表示庄稼的收成，则自变量可以是雨量、光照、土质 
等因素。在动态系统中，因变量往往是系统输出，而自变量是系统的过去行为表现。 
令 x = [x1, · · · , xd]T。从数学描述来看，统计回归是指寻找一个回归量 g(x) 使其跟因 
变量的观测值 y 尽量接近，即 |y .g(x)| 的值尽量小。.y = g(x) 称为预测值。在没有 x 和 
y 的先验信息时，线性回归通常有如下形式: 
g(x) = xTθ, x, θ ∈ Rd (3.1) 
43
假如在 t = 1, 2, · · · ,N 时刻能够获得自变量和因变量的观测值，分别记为 xt 和 yt， 
则线性回归的拟合函数可定义为
VN(θ) = 
1 
N 
N Σt=1
[yt . xTt
θ]2 
= 
1 
N ∥YN .XNθ∥2 
(3.2) 
式中 
YN =.... 
y1
... 
yN
....
, XN =.... 
xT1
... 
xT
N
.... 
线性拟合的目的是去寻找 θ 值使 VN(θ) 达到最小，即 
. θ = arg min 
θ 
VN(θ) 
s.t. VN(θ) = 
1 
N ∥YN .XNθ∥2 
上述优化问题的最优解也称为最小二乘估计。 
1. 最小二乘解 
通过对函数 VN(θ) 求导置零，得到如下正规方程： 
XT
NXNθ = XT
NYN 
当矩阵 XN 列满秩时，上述正规方程有唯一解： 
. θN = (XT
NXN).1XT
NYN = X.N
YN 
式中：“.”为 Moore-Penrose 伪逆。 
2. 最优解的几何意义 
上述线性拟合的最小二乘解可以从几何角度进行解释。正规方程等式可以写成如下等 
价形式： 
XT
N(XN . θN . YN) = 0 
从上式可以看出，回归向量 XN 和残差向量 EN = YN .XN . θN 正交。因此，可以通过建 
立上述正交方程来获得最小二乘解。 
44
3.1.2 逻辑回归 
针对二值分类问题，假设训练数据集为 {XN,CN} = {xn, cn}Nn
=1，其中 cn ∈ {0, 1}。 
令 xn 属于类别 cn = 1 的概率为 
p(cn = 1|xn) = σ(wTxn + b) = 
ewTxn+b 
1 + ewTxn+b = 
1 
1 + e.wTxn.b 
式中：σ(·) ∈ [0, 1] 为 Logistic 或者 Sigmoid 函数。 
根据上述概率定义可得 
log p(cn = 1|xn) 
p(cn = 0|xn) 
= wTxn + b 
由于概率似然比的对数为线性函数，因此求解 w 和 b 的问题称为线性概率回归。 
二项逻辑回归可以推广到多项逻辑回归。若离散型随机变量 cn 的取值集合为 {1, 2, · · · , 
K}，则多项逻辑回归模型可写成 
p(cn = k|xn) = 
ewT
k xn+bk 
1 + 
K.1 Σk=1 
ewT
k xn+bk 
, k = 1, · · · ,K . 1 
p(cn = K|xn) = 
1 
1 + 
K.1 Σk=1 
ewT
k xn+bk 
(3.3) 
1. 逻辑回归的优化 
对于二分类问题，假设各训练数据相互独立，似然函数可写成 
p(CN|XN,w, b) = 
NΠn=1 
p(cn|xn,w, b) 
= 
NΠn=1 
pcn(cn = 1|xn,w, b)p1.cn(cn = 0|xn,w, b) 
相应的对数似然函数可以写成 
L(w, b) = 
N Σn=1 
cn log σ(wTxn + b) + (1 . cn) log(1 . σ(wTxn + b)) 
= 
N Σn=1 
log(1 . σ(wTxn + b)) + 
N Σn=1 
cn(wTxn + b) 
通过极大似然法可获得最优参数 w, b： 
{w., b.} = arg max 
w,b 
L(w, b) 
45
由于上述最优化问题不能直接得到闭式解，因此用梯度上升法来迭代计算，其中涉及的梯 
度信息包括 
.wL(w, b) = 
N Σn=1 [cnxn . σ(wTxn + b)xn] 
.bL(w, b) = 
N Σn=1 [cn . σ(wTxn + b)] 
利用关系式 .xσ(x) = σ(x)[1 . σ(x)] 可简化上式的梯度计算。梯度上升法通过如下公式进 
行迭代更新： 
wk+1 = wk + η.wL(wk, bk) 
bk+1 = bk + η.bL(wk, bk) 
式中：η 为迭代步长，k 为迭代次数。 
2. 逻辑回归的凹函数特性 
当 b = 0 时，对数似然函数 L(w) 是关于 w 的凹函数，因此梯度上升法能够收敛到全 
局最优解。接下来将证明 L(w) 为凹函数。L(w) 的 Hessian 矩阵为 
Hi,j = 
.2L 
.wi.wj 
= . 
N Σn=1 
xn,ixn,jσ(wTxn)[1 . σ(wTxn)] 
对于任意的向量 z，如下不等式成立： 
Σi,j 
ziHi,jzj = .Σi,j,n 
zixn,izjxn,jσ(wTxn)[1 . σ(wTxn)] 
. .Σn 
σ(wTxn)[1 . σ(wTxn)](Σi 
zixn,i)2 
. 0 
因此，L(w) 是关于 w 的凹函数。 
3.1.3 均方误差估计 
对于线性拟合模型 y = xTw，其中 x 为随机输入向量，w 为权重向量，y 为期望输 
出。权重向量 w 通过最小化期望输出和实际输出之间的均方误差进行求解： 
w. = argmin 
w 
J(w) 
s.t. J(w) = E[∥y . xTw∥2] 
46
通过对 J(w) 关于 w 求导置零得到 
.J(w) 
.w 
= 2E[x(y . xTw)] = 0 (3.4) 
由此得到 
w. = E.1[xxT]E[xy] (3.5) 
式中：E[xxT] 和 E[xy] 分别为自相关矩阵和互相关矩阵，通常需要知道概率分布函数来计 
算理论期望值或者通过对大量样本计算经验期望值。Robbins 和 Monro 利用随机逼近理论 
提供了一种解决方案。考虑如下形式方程： 
E[f(xk,w)] = 0 
式中：f(·) 为非线性函数；xk(k = 1, 2, · · · ) 为满足同分布的随机向量序列；w 为未知参数 
向量。
可以看出，线性方程 (3.4) 是上述方程一类特殊形式。随机逼近算法采用如下迭代策略： 
w.(k) = w.(k . 1) + ρkf(xk,w.(k . 1)) 
式中：ρk 为时变步长。 
针对上述迭代方程，当序列 ρk 满足条件 
∞Σk=1 
ρk → ∞, 
∞Σk=1 
ρ2
k < ∞ 
时，估计值 w.k 将均方收敛到方程 E[f(xk,w)] = 0 的真实解 w.，即 
lim 
k→∞E[∥w.(k) . w.∥2] = 0 
例 3.1（随机逼近） 
考虑简单方程 E[xk . w] = 0。令 ρk = 1/k，则迭代策略为 
w.(k) = w.(k . 1) + 
1
k 
[xk . w.(k . 1)] = 
k . 1 
k 
w.(k . 1) + 
1
k
xk 
可以看出，当 k 值趋向于无穷时，有 w.(k) → 
k Σi=1 
xi 
k 
。 
对于线性方程(3.4)，随机逼近的迭代方程可写成 
w.(k) = w.(k . 1) + ρkxk (yk . xTk
w.(k . 1)) 
上述迭代算法将收敛到最小均方估计值。 
47
3.2 支持向量机 
支持向量机最初由学者 Vapnik 提出，其基本模型主要用于解决二分类问题。SVM 分 
类器不同于一般的分类器，具有更好的鲁棒性和泛化能力，因此被广泛应用于线性分类和 
非线性分类。 
3.2.1 标准支持向量机 
给定一个二分类数据集 D = {xt, yt}N t=1，其中 yt ∈ {+1,.1}。若两类样本是线性可分 
的，则存在一个超平面 
wTxt + b = 0 
使得 
yt = { 1, wTxt + b > 0 
.1, wTxt + b < 0 
若两类样本线性可分，则意味存在 w 和 b 使得任意样本对 {(xt, yt)}N t=1 都满足 yt[wTxt + 
b] > 0。 
1. 支持向量机模型 
数据集 D 中每个样本 xt 到分类超平面的距离为 
γt = |wTxt + b| 
∥w∥ 
= 
yt[wTxt + b] 
∥w∥ 
定义间隔 γ 为整个数据集 D 中所有样本到超平面的最短距离： 
γ = min 
t |γt| 
若间隔 γ 越大，则分割超平面对两类数据的划分越稳定，不容易受到观测噪声等因素 
的影响（如图 3.1 所示）。支持向量机的设计目标是寻找超平面的参数 (w, b) 使得最小间 
隔 γ 最大化，即 
max 
w,b 
2γ 
s.t. yt[wTxt + b] 
∥w∥ 
> γ, .t = 1, · · · ,N 
由于满足 wTxt + b = 0 的 (w, b) 值存在尺度不确定性，为此可以限制 ∥w∥γ = 1，使 
得上述优化问题等价转换成 
max 
w,b 
2 
∥w∥ 
s.t. yt[wTxt + b] . 1, .t = 1, · · · ,N 
48
或者 
min 
w,b 
∥w∥2 
2 
s.t. yt[wTxt + b] . 1, .t = 1, · · · ,N 
(3.6) 
不难看出，上述优化问题为凸优化问题。当两类样本线性可分时，该优化问题具有强对偶性。 
数据集中所有满足 yt[wTxt + b] = 1 的样本点称为支持向量。由于支持向量机是具有 
间隔最大的分类超平面，因此其通常具有唯一性。 
图 3.1 分类间隔与最优超平面 
2. 支持向量机的优化 
对支持向量机所对应的优化问题式 (3.6) 采用拉格朗日方法进行求解。其对应的拉格 
朗日函数可以写成
L(w, b,λ) = ∥w∥2 
2 
+ 
N Σt=1 
λt (1 . yt[wTxt + b]), λt . 0 (3.7) 
分别计算 L 关于 w、b 的导数并置零，得到 
w = 
N Σt=1 
λtytxt (3.8) 
0 = 
N Σt=1 
λtyt (3.9) 
将式 (3.8) 代入式 (3.7)，然后利用式 (3.9) 得到如下拉格朗日对偶函数： 
J(λ) = .
1
2 
N,N Σ t=1,k=1 
λtλkytykxTt
xk + 
N Σt=1 
λt 
49
由此，支持向量机的对偶优化问题可以写成 
max 
λ . 
1
2 
N,N Σ t=1,k=1 
λtλkytykxTt
xk + 
N Σt=1 
λt 
s.t. 
N Σt=1 
λtyt = 0 
λt . 0 
(3.10) 
当原优化问题 (3.6) 具有强对偶性或者数据集线性可分时，可以通过最大化对偶优化问题 
来进行求解。不难看出对偶问题的目标函数是凹函数，而约束条件为线性约束。因此，最 
大化对偶优化问题能获得全局最优解。通常采用比较高效的序贯最小优化算法。每次迭代 
选择变量 λi 和 λj，在固定其他参数后，对偶优化问题式 (3.10) 仅需优化两个参数，其对 
应的约束可重写成 
λiyi + λjyj = c (3.11) 
式中：c = . Σ t.=i,j 
λtyt。 
通过上述等式可以消去变量 λj，得到一个关于 λi 的单变量二次规划问题，仅存在的 
约束为 λi . 0。由此可以得到单变量二次规划问题的闭式解，从而提高优化效率。 
根据优化理论中的 KKT 互补松弛条件，最优解 (λ.t
,w., b.) 需要满足 
λ.t
[1 . yt(w.Txt + b.)] = 0 
若样本不在约束边界上，即 1.yt(w.Txt +b.) < 0，则对应的 λt = 0；若样本在约束边界 
上，则 λt 可以不为零。 
支持向量机的最优权重向量 w 需满足式 (3.8)，即 w 的最优值依赖 λt，而非零的 λt 
值只发生在支持向量上。因此，支持向量机的分类超平面表达式只依赖支持向量，具有很 
好的稀疏特性。这就是该分类器称为“支持向量机”的原因。 
通过求解对偶优化问题式 (3.10) 获得对偶变量 λt 的最优值后，根据式 (3.8) 得到最优 
权重 w.。到目前为止，如何求解偏置 b 的最优值还没有得到解决。通过互补松弛分析，非 
零 λt 所对应的样本 xt 被确定为支持向量。若 xt 为支持向量，则最优偏置 b 通过求解如 
下方程来获得： 
yt[w.Txt + b.] = 1 
或者 
b. = yt . w.Txt (3.12) 
最终的支持向量分类器可以写成
yt = sgn[w.Txt + b.] 
50
3. 支持向量机算法描述及示例 
综上所述，给定线性可分训练数据集合，支持向量机的分类超平面可以通过算法 3.1来 
获得。 
算法 3.1（支持向量机学习算法） 
输入：线性可分训练数据集合 {xt, yt}N t=1。 
（1）构造并求解对偶优化问题式 (3.10)，得到最优解 {λ.t 
}N t=1。 
（2）通过式 (3.8) 计算权重向量 w.，确定非零 λ.t
对应的样本为支持向量，并通过式 (3.12) 
得到最优偏置 b.。 
（3）求得分类超平面 w.Tx + b. = 0。 
输出：分类决策函数 yt = sgn[w.Txt + b.]。 
接下来将通过一个简单例子来阐述支持向量机的应用。 
例 3.2（支持向量机示例） 
给定正样本点 x1 = (3, 3), x2 = (4, 3) 和负样本点 x3 = (1, 1)，试设计线性可分支持向 
量机。
解：该问题可以采用几何方法或代数方法来求解。 
第一种方法为几何方法。根据支持向量机的基本原理，首先确定支持向量 (3, 3) 和 
(1, 1)，然后根据支持向量确定最优分类面为 
x1 + x2 = 4 
第二种方法为代数方法，即采用算法 3.1进行求解。首先，根据给定数据对偶优化问题 
可以写成 
min 
λ 
1
2Σi Σj 
1
2
(18λ21
+ 25λ22
+ 2λ23
+ 42λ1λ2 . 12λ1λ3 . 14λ2λ3) . λ1 . λ2 . λ3 
s.t. λ1 + λ2 . λ3 = 0 
λi . 0, i = 1, 2, 3 
求解上述优化问题可得最优解 λ = (1/4, 0, 1/4)。然后，根据式 (3.8) 和式 (3.12) 可得最优 
权重向量 (1/2, 1/2) 和最优偏置值 .2。由此可以得到如下分类决策函数： 
y = sgn (x1 
2 
+ 
x2 
2 . 2) 
51
3.2.2 软间隔与正则化 
标准支持向量机主要是针对线性可分的数据集，即约束条件相对比较严格。当数据集 
线性不可分时，标准支持向量机无法找到最优解（如图 3.2 所示）。为解决该问题，引入松 
弛变量 ξt 来容忍不满足约束条件的样本，但是需要对其进行惩罚。根据该思想，改进支持 
向量机的优化问题可以写成 
min 
w,b,ξ 
∥w∥2 
2 
+ c 
N Σt=1 
ξt 
s.t. yt[wTxt + b] . 1 . ξt 
ξt . 0, .t = 1, · · · ,N 
(3.13) 
其中，参数 c > 0 用来控制间隔和松弛变量惩罚之间的平衡。引入松弛变量的间隔称为软 
间隔。 
图 3.2 软间隔与正则化 
类似于标准支持向量机的求解方式，构建如下拉格朗日函数： 
L(w, b, ξ,λ,α) = ∥w∥2 
2 
+ c 
N Σt=1 
ξt 
+ 
N Σt=1 
λt[1 . ξt . yt(wTxt + b)] . 
N Σt=1 
αtξt 
式中：λt, αt . 0 为拉格朗日乘子。 
对上述拉格朗日函数关于 w、b、ξt 求偏导置零，得到 
52
..
..........
.........
w = 
N Σt=1 
λtytxt 
0 = 
N Σt=1 
λtyt 
c = λt + αt 
(3.14) 
将上式代入拉格朗日函数后得到如下对偶优化问题： 
max 
λ 
N Σt=1 
λt . 
1
2 
N,N Σ t=1,k=1 
λtλkytykxTt
xk 
s.t. 
N Σt=1 
λtyt = 0 
0 . λt . c, .t = 1, · · · ,N 
(3.15) 
通过最大化上述凹优化问题可以获取 λt 的全局最优解，然后将其代入式 (3.14) 得到权重 
向量的 w 最优解。接下来将讨论如何求解最优偏置 b。 
根据优化理论的 KKT 互补松弛条件，可以得到 
λt (yt[wTxt + b] + ξt . 1)= 0 
αtξt = 0 
c = λt + αt 
通过 λt 的值可以判断样本 xt 是否为支持向量。若 λt > 0，则样本 xt 满足 yt[wTxt+b]+ξt = 
1。同时，根据约束 λt + αt = c，判断出当 0 < λt < c 时，αt > 0 并且 ξt = 0。因此，若 
0 < λt < c，偏置 b 的最优解可以从其对应的样本和标记得到 
b. = 
1 
yt . w.Txt = yt . w.Txt (3.16) 
最终，基于软间隔正则化的支持向量分类器可以写成 
yt = sgn[w.Txt + b.] 
算法 3.2（软间隔支持向量机学习算法） 
输入：训练数据集合 {xt, yt}N t=1。 
（1）选择惩罚参数 c，构造并求解对偶优化问题式 (3.15)，得到最优解 {λ.t 
}N t=1。 
（2）通过式 (3.14) 计算权重向量 w.，确定 0 < λ.t
< c 对应的样本为支持向量，并通过 
53
式 (3.16) 得到最优偏置 b.。 
（3）求得分类超平面 w.Tx + b. = 0。 
输出：分类决策函数 yt = sgn[w.Txt + b.]。 
3.2.3 支持向量回归 
具有软间隔的支持向量机式 (3.13) 可以表示成经验风险 + 正则化的形式： 
min 
w,b 
N Σt=1 
max(0, 1 . yt[wTxt + b]) + ∥w∥2 
2c 
式中：max(0, 1 . yt[wTxt + b]) 为损失函数；∥w∥2 
2c 
为正则化项。 
接下来将基于上述正则化形式设计支持向量回归模型。 
不同于分类问题，我们希望获得一个回归模型 wTxt + b，使其与 yt 尽可能接近。支 
持向量回归与传统回归不同的地方在于容许 wTxt + b 和 yt 之间存在最多 . 的偏差，当 
|yt . wTxt . b| > . 时才计算损失（如图 3.3 所示）。 
图 3.3 支持向量回归 
支持向量回归的优化形式可以写成 
min 
w,b 
N Σt=1 
max{0, |yt . wTxt . b| . .} + ∥w∥2 
2c 
或者 
min 
w,b, ˉ ξ,ξ 
∥w∥2 
2 
+ c 
N Σt=1
(ˉξt + ξ
t
) 
s.t. yt . wTxt . b . . + ˉξt 
wTxt + b . yt . . + ξ
t 
54
ˉξt . 0, ξ
t . 0, .t = 1, · · · ,N 
对应的拉格朗日函数可以写成 
L(w, b, ˉ ξ, ξ, ˉ λ,λ, ˉα,α) 
= ∥w∥2 
2 
+ c 
N Σt=1
(ˉξt + ξ
t
) . 
N Σt=1 
ˉαt ˉξt . 
N Σt=1 
αtξ
t 
+ 
N Σt=1 
ˉλ
t[yt . wTxt . b . . . ˉξt] + 
N Σt=1 
λt[wTxt + b . yt . . . ξ
t
] 
式中：ˉ λ,λ, ˉα,α . 0 为拉格朗日乘子。 
对上述拉格朗日函数关于 w、b、 ˉ ξ、ξ 求导置零，可得 
w = 
N Σt=1
(ˉλ
t . λt)xt 
0 = 
N Σt=1
(ˉλ
t . λt) 
c = ˉλ
t + ˉαt 
c = λt + αt 
(3.17) 
将上式代入拉格朗日函数，得到如下对偶优化问题： 
max 
ˉ λ,λ 
N Σt=1 
yt[ˉλ
t . λt] . .(ˉλ
t + λt) 
. 
1
2 
N,N Σ t=1,k=1
(ˉλt . λt)(ˉλ
k . λk)xTt
xk 
s.t. 
N Σt=1
(ˉλ
t . λt) = 0 
0 . ˉλ
t, λt . c, .t = 1, · · · ,N 
(3.18) 
通过求解上述对偶优化问题得到 ˉλ
t、λt 的最优值，代入式 (3.17) 进一步得到 w 的最 
优解。接下来讨论如何获偏置 b 的最优解。 
根据优化理论的 KKT 松弛互补条件可以得到 
ˉλ
t[yt . wTxt . b . . . ˉξt] = 0 
λt[wTxt + b . yt . . . ξ
t
] = 0 
55
(c . ˉλ
t)ˉξt = 0, (c . λt)ξ
t 
= 0 
c = ˉλ
t + ˉαt 
c = λt + αt 
若 0 < ˉλ
t < c，则有 ˉξt = 0。因此，最优偏置可以从上述第一个等式计算得到 
b = yt + . . w.Txt (3.19) 
最终得到支持向量回归模型：yt = w.Txt + b.。 
算法 3.3（支持向量回归学习算法） 
输入：训练数据集合 {xt, yt}N t=1，回归容许偏差 .。 
（1）选择惩罚参数 c，构造并求解对偶优化问题式 (3.18)，得到最优解 {ˉλ
.t
, λ.t 
}N t=1。 
（2）通过式 (3.17) 计算权重向量 w.，确定 0 < ˉλ
.t
< c 对应的样本为支持向量，并通过 
式 (3.19) 得到最优偏置 b.。 
输出：支持向量回归模型 yt = w.Txt + b.。 
3.3 核方法与正则化 
不同于线性回归，非线性映射通常具有比较复杂的几何特征，其通常记成 
y = f(x) 
为了能够便于处理，通常需要寻找 f(·) 函数的参数化形式，使得该参数化回归函数具 
有灵活表示形式，而且能够覆盖所有合理的非线性行为。接下来讨论如何采用基函数或者 
核函数来实现非线性函数的参数化表示。 
3.3.1 广义线性模型 
给定样本 (x, y)，广义线性估计可以表示成 
.y = g(x,α) = 
K Σk=1 
αk.k(x) (3.20) 
式中：.k(·) 为预先选择的基函数。 
通常，基函数的选择有不同的形式，它们赋予了非线性函数研究的统一框架。 
若采用泰勒展开来获得非线性函数的近似线性化表示，则其对应的基函数为 
.k(x) = xk := { d Πi=1 
xβi 
i | 
d Σi=1 
βi = k, βi . 0} 
56
这类基函数也称为多项式基函数。多项式或者泰勒展开通常由 Weierstrass 定理来保证其 
拟合精度：任何定义在有界闭区间上的连续函数，总能够找到多项式展开使得其误差处处 
（一致）小于某一固定值。上述多项式展开有时也称为 Volterra 展开。 
常见的基函数包括多尺度基函数 .k(x)，具有如下特征： 
（1）所有的基函数 .k(x) 均由一个母函数生成，该母函数表示为 κ(·) : R → R； 
（2）基函数 .k(x) 可以表示成
.k(x) = κ[βk(x . γk)]. 
式中：βk 为尺度膨胀参数；γk 为平移参数。 
常见的母函数包括傅里叶级数、高斯钟函数、分段定常函数和 Sigmoid 函数。 
采用多尺度基函数，非线性映射函数 f(x) 可以近似表示成 
f(x) = 
K Σk=1 
αkκ[βk(x . γk)] (3.21) 
值得注意的是，单变量的基函数可以分为局部基函数和全局基函数。局部基函数是指 
函数值在局部发生剧烈变化，如高斯钟、分段定常和 Sigmoid 函数。全局基函数是指函数 
值对定义域上的所有值均会产生较大变化，如傅里叶变换和 Volterra 展开。 
1. 有限维空间的线性可分容量 
广义线性拟合能够解决复杂的非线性拟合问题，同时也能够解决低维空间不可分的分 
类问题。比如二维空间中的四点 {(0, 0), (0, 1), (1, 0), (1, 1)}，若映射函数为异或运算，则 
(0, 0) 和 (1, 1) 为一类，而 (0, 1) 和 (1, 0) 为另一类。显然，这两类数据不能简单地由一条 
直线分割开来。低维空间中的不可分问题通常用以下方法来解决：先通过非线性方法将回 
归向量变换到高维空间，再进行线性分类。上述方法的合理性用模式可分性 Cover 定理来 
说明：“假设样本空间不是稠密分布的，将复杂的模式分类问题非线性地投影到高维空间， 
比投影到低维空间更容易线性可分。” 
考虑 l 维空间中的 N 个点，若任意 l + 1 个点不在 (l . 1) 维超平面上时，则这些 
点具有良态分布。通常，具有良态分布的 3 个样本点不会出现在二维平面上的同一条直 
线上。 
定理 3.1（Function Counting 定理） 若采用 l . 1 维的超平面对具有良态分布的 N 个 l 
维样本进行二分类，其分类结果数 P(N, l) 可以表示成 
P(N, l) =..
...
.. 
2 
l Σi=0 ( N . 1 
i ), N > l + 1 
2N, N . l + 1 
式中 
( N . 1 
i )= 
(N . 1)! 
(N . 1 . i)!i! 
57
考虑到 N 个样本所有可能的二分类组合数有 2N 种，而且当 N . l+1 时有 P(N, l) = 
2N。因此，N 个 l 维样本可线性分类的概率为 
PlN
= P(N, l) 
2N =..
...
.. 
1 
2N.1 
l Σi=0 ( N . 1 
i ), N > l + 1 
1, N . l + 1 
通过对 Function Counting 定理的分析得到结论：在给定样本数量 N 的情况下，若 
式 (3.21) 中基函数的数量 K 越大，则线性可分的概率越大。因此，使用非线性函数将低 
维回归向量投影到高维空间行进线性分类的方法具有基本理论支撑。 
2. 核函数 
当 d 维回归向量通过 .(x) 转换到很高维新特征向量时，其对应的拟合计算量就会增 
加，从而导致维数灾难。基于新特征向量 .(x)，接下来将考虑如何设计支持向量机。 
类似于标准支持向量机的推导，新特征向量对应的最优权重 w 可以表示成 
w. = 
N Σt=1 
λtyt.(xt) 
在新特征空间中，对新样本 xt+1 的分类可以表示成 
yt+1 = sgn( N Σt=1 
λtyt.T(xt).(xt+1) + b.) 
从上述分类器可以看出，虽然 .(x) 可能维度很高而且难以表示，但是分类器中与 .(x) 相 
关的项 .T(xt).(xt+1) 是一个标量。因此，若知道 .T(x).(z) 的表达式，特征空间的分类 
器就能够快速计算。在这里，κ(x, z) = .T(x).(z) 称为内积核函数。 
定理 3.2 对称函数 κ(x, z)=κ(z, x) 为正定核函数的充分必要条件为任意数据集 {x1, · · · , 
xm} 所对应的如下核矩阵总是半正定的： 
K =
....... 
κ(x1, x1) κ(x1, x2) · · · κ(x1, xm) 
κ(x2, x1) κ(x2, x2) · · · κ(x2, xm) 
... 
...
... ... 
κ(xm, x1) κ(xm, x2) · · · κ(xm, xm)
....... 
上述定理表明，若核函数所对应的核矩阵是半正定的，它就能作为核函数使用。反之， 
对于任意一个半正定核矩阵，总能找到一个与之对应的特征映射函数 .(·)。 
采用核函数能够避免对高维特征向量的直接计算，然而核函数的选择对分类器的性能 
至关重要。在不知道特征映射函数的情况下，并不知道什么样的核函数是合适的。常用的 
核函数有如下几类： 
58
高斯核： 
κ(x, z) = exp(.∥x . z∥2 
2σ2 ) 
式中：σ 为参数。 
线性核： 
κ(x, z) = (xTz)r 
式中：r 为参数。 
多项式核： 
κ(x, z) = (xTz + c)r 
式中：r 为参数。 
拉普拉斯核： 
κ(x, z) = exp(.t∥x . z∥) 
式中：t 为参数。 
Spline 核： 
κ(x, z) = B2p+1(∥x . z∥2) 
式中：Bn 样条曲线由 n + 1 个单位区间函数 [.1/2, 1/2] 卷积得到。 
Sigmoid 核： 
κ(x, z) = tanh(βxTz + θ), β > 0, θ < 0 
基于上述几种基本核函数，通过如下一系列组合操作可以得到新的核函数： 
（1）线性组合 α1κ1(x, z) + α2κ2(x, z), .α1, α2 > 0 是核函数； 
（2）直积组合 κ1(x, z)κ2(x, z) 是核函数； 
（3）对于任意函数 g(x) : Rd → R，g(x)g(z) 和 g(x)κ(x, z)g(z) 是核函数； 
（4）指数和多项式组合：exp[κ(x, z)] 和 [κ(x, z)]r 是核函数。 
3. 表示定理 
表示定理在实际应用中具有重要作用：通过有限训练样本能够对经验损失函数进行快 
速优化，即使待估计函数具有很高维度。 
定理 3.3（表示定理） 令 Ω : [0,+∞) → R 为任意严格单调增函数，L : R2 → R 为任意非 
负损失函数，H 为再生核希尔伯特空间。下列最小正则化问题 
min 
f∈H 
N Σt=1 
L[yt, f(xt)] + λΩ(∥f∥2) (3.22) 
59
的最优解具有如下表示形式： 
f(x) = 
N Σt=1 
θtκ(x, xt) 
上述表示定理对损失函数没有限制，对正则化项仅要求单调递增，甚至不要求其为凸 
函数。这意味着对于一般损失函数和正则化项，最优解都能表示为核函数的线性组合，这 
体现了核函数在实际应用中的重要性。 
例 3.3（核表示的最小平方解） 
令 (xi, yi)(i = 1, 2, · · · ,N) 为训练样本。试设计最小平方线性分类器，即 
min 
g∈H 
N Σi=1
(yi . g(xi))2 
解：由表示定理能够得到 
g(x) = 
N Σj=1 
ajκ(x, xj) 
因此，函数 g 的求解转换成参数 a 的求解。令 
J(a) = 
N Σi=1 (yi . 
N Σj=1 
ajκ(xi, xj))2 
= (y .Ka)T(y .Ka) 
则最优 a 可通过求解如下最小二乘问题获得： 
a. = arg min 
a 
J(a) 
通过对 a 求导置零得到 
a. = K.1y 
从而最优函数 g(x) 可以写成 
g(x) = aTp(x) = yTK.1p(x) 
式中 
p(x) = [κ(x, x1), · · · , κ(x, xN)]T 
60
3.3.2 核支持向量机 
核方法的思想可以拓展标准支持向量机并用于解决非线性分类问题。类似于标准支持 
向量机的求解步骤，首先将对偶问题式 (3.10) 改写成 
max 
λ . 
1
2 
N,N Σ t=1,k=1 
λtλkytykκ(xt, xk) + 
N Σt=1 
λt 
s.t. 
N Σt=1 
λtyt = 0 
λt . 0 
式中：κ(xt, xk) 为选择的核函数。 
如式 (3.8) 所示，标准支持向量机的权重向量依赖特征 xt。若采用转换后的高维特征 
向量 .(xt)，则权重向量具有很高的维度，很难进行计算或存储。为此，在核支持向量机 
处理过程中，往往不显式表示最优权重向量，而是给出如下形式的分类器： 
y = sgn( N Σt=1 
λtytκ(xt, x) + b) 
类似于式 (3.12)，上式中偏置 b 的值由支持向量来获得。若 λt0 .= 0，则 xt0 或者 .(xt0) 为 
支持向量。为了避免对高维特征向量 .(xt0) 直接处理，最优偏置通过如下核函数计算得到： 
b. = yt0 . 
N Σt=1 
λtytκ(xt, xt0) 
由于核函数的强大能力，可以构造如下核函数来解决异或逻辑函数线性不可分的难题： 
κ(x, z) = (1 + xTz)2 = .T(x).(z) 
该核函数所对应的特征变换函数为 
.(x) = [1,√2x1,√2x2,√2x1x2, x21
, x22
]T 
3.3.3 正则化理论 
式 (3.22) 给出一个正则化优化问题的广义表示形式，其中包含误差项和正则化项。给 
定样本集合 {xt, yt}N t=1，岭回归优化问题可以写成 
min 
w 
1
2 
N Σt=1 
∥yt . wTxt∥2 + 
λ
2 ∥w∥2 (3.23) 
61