第5章〓高维数据实体分辨多分类器方法
5.1引言

在高维数据研究中,使用特征选择降低不相关特征、冗余特征和噪声特征对算法性能的影响是常用的方法。通常,特征选择是从特征中选择满足算法性能要求的一个特征子集。特征子集的基数一般较小,即使在高维数据中,特征子集的基数也显著小于数据的维度。这是由于增加特征个数会提高运算开销,同时也会引入不相关特征和噪声特征,导致算法性能下降。然而与维度较低的数据相比,高维数据的特征中蕴含了更多的信息,如果仅使用一个基数较小的特征子集,会导致算法无法有效利用高维特征中的信息。而当前特征选择方法的局限性同样存在于高维数据的实体分辨问题中。

集成学习是一种独立于具体算法的非参数机器学习方法,它的思想是将一些性能较弱的分类器(至少优于随机分类器)组合形成一个分类性能较强的多分类器系统,系统的输出由各个弱分类器的预测值共同决定。近年来,集成学习的研究如火如荼,研究人员已经从理论和实践上证明了集成学习能够有效提升算法性能。

本章采用集成学习思想,设计针对高维数据实体分辨的多分类器方法,提升高维数据实体分辨性能。

5.2分类器度量
5.2.1分类器性能度量
通常,二分类器从功能上可以看成一个将状态类别为N的样本空间(源空间)映射到2类空间(目标空间)的映射函数,如图51所示。



图51二分类器映射图

本章将1类(实体分辨中的匹配类)作为正类,2类(实体分辨中的不匹配类)作为负类,在一般的分类器中对应为1类和-1类(或1类和0类)。通常使用分类器的性能指标评估特征选择算法的效果,本节基于曹建军定义的分类器性能度量指标,定义针对高维数据实体分辨的二分类器性能度量指标[1]。

分类正确率(Classification Success Rate)的定义如式(51)
P=正确分辨的样本数参加分辩的样本总数×100%(51)
虚警率(False Alarm Rate)的定义如式(52)

Rfa=不匹配误分为匹配的样本数参加分辨的不匹配样本总数×100%(52)
漏诊率(Fault not Be Recognized Rate)的定义如式(53)
Rfn=匹配误分为不匹配的样本数参加分辨的匹配样本总数×100%(53)
定义二类分类器输出的分布矩阵如式(54)所示
p=[pii′],i,i′=1,2(54)
式(54)中,pii′的定义如式(55)
pii′=第i类被分为第i′类的样本数参加分辨的第i类样本数×100%(55)
pii(i=1,2)为第i类样本的分类正确率,可由式(56)计算得出
pii=1-pii′(56)
式(56)中,i≠i′。





分类正确率P可通过式(57)计算得出
P=Pipii+Pi′pi′i′(57)
式(57)中i≠i′,Pi为第i类样本的先验概率,给定测试样本集,Pi可由式(58)计算
Pi=NiNi+Ni′(58)
式(58)中,Ni为第i类的样本数,Ni′为第i′类的样本数,Pi′的定义与Pi相同。

虚警率Rfa可通过式(59)计算
Rfa=p21(59)
漏诊率Rfn可通过式(510)计算
Rfn=p12(510)
P,Rfa和Rfn之间存在式(511)的关系
1-P=(1-P1)Rfa+P1Rfn(511)
根据式(511)以及虚警率和漏诊率的定义可以看出,虚警率与漏诊率是一对互相矛盾的指标,虚警率高时漏诊率较低,反之亦然。而分类正确率能够综合反映虚警率与漏诊率,因此采用分类正确率更能有效判定分类器的分类能力。

5.2.2分类器相似性度量

存在多个分类器时(多分类系统),输出结果相似的分类器对难分数据可能具有相同的预测值,因此它们的组合并不能有效提高分类性能。反之,分类器输出相似度具有一定的差异度时(多样性),它们的组合能够在一定程度上提高分类性能。下面用示例说明该情况,如图52所示。



图52不同相似度分类器输出示意图


在图52(a)中,分类器A与分类器B具有相似的分类超平面,即具有相似的预测性能,因此它们的组合无法对阴影中的4个负类进行正确的判别; 图52(b)中分类器C与分类器D的分类超平面与(a)相比具有更大的差异性,即增加了输出的差异性,它们的组合仅无法正确判别阴影中的2个正类样本,从而提升了组合分类器的整体分类性能,这种具有输出不相似性的分类器在分类效果上是互补的,即具有较强的多样性。

给定训练样本集,以及功能类型和参数设置相同的二类分类器,对于确定的特征子集St(即给定特征向量),通过特征向量构建新的训练样本并训练分类器,然后用测试样本评估分类器的分类性能,可以将特征子集St映射为一个确定的分类器ΛSt和一个分类器输出分布矩阵p,如式(512)所示
Λ(St)=(ΛSt,p)(512)
因此,在分类输出结果上互补的分类器是通过具有互补性的特征子集训练得到的,即互补特征子集。而分类器ΛSt的相似性可以由特征子集St的相似度和输出分布矩阵p的相似度来衡量,我们将其分别称为输入相似性和输出相似性。

下面定义二类分类器间的相似性度量指标(类似于集成学习分类器的多样性)。

定义51(输入相似性)定义分类器的输入相似性为输入特征子集的相似度,对两个分类器的非空特征子集StA与StB,采用谷元距离度量它们的相似度[2],如式(513)
Sd(StA,StB)=1-|StA|+|StB|-2|StA∩StB||StA|+|StB|-|StA∩StB|(513)

由式(513)可知Sd∈[0,1],当Sd=0时,表示两个特征子集之间没有相同的组成元素; 当Sd=1时,表示两个特征子集完全相同,即具有完全一致的组成元素,使用它们构成的样本进行训练得出的分类器也完全相同。因此,Sd越大两个特征子集的相似度越高,即分类器的输入相似性越高。

定义52(输出相似性)定义分类器的输出相似性为分类器输出分布矩阵的相似度,即对p′=[p′ii′],p″=[p″ii′],其中i=1,2,i′=1,2,用标准化的皮尔逊相关系数度量它们之间的相似度,如式(514): 
Sc(p′,p″)=121+∑2i=1∑2i′=1(p′ii′-p′)(p″ii′-p″)∑2i=1∑2i′=1(p′ii′-p′)2∑2i=1∑2i′=1(p″ii′-p″)2(514)
式(514)中,p′,p″分别为输出分布矩阵p′p″中元素的平均值,即p′=14∑2i=1∑2i′=1p′ii′。由式(514)可知Sc∈[0,1],当Sc=0时,表示p′,p″完全负相关,即两个分类器的输出分布矩阵完全相反,分类结果完全不同,两个分类器的相似性最弱; 当Sc=1时,表示p′,p″完全正相关,即两个分类器的输出分布矩阵完全相同,分类结果完全一致。

下面给出分类器的输出相似性与输入相似性关系的定理,并进行证明[1]。

定理51假设Λ(StA)=(ΛStA,pA)且Λ(StB)=(ΛStB,pB),如果Sc(pA,pB)<1,则有Sd(StA,StB)<1。

证明:  假设StA=StB,由公式(512)和定理的前提条件可得Sc(pA,pB)=1,即若Sd=(StA,StB)=1,那么Sc(pA,pB)=1,该命题成立,同时该命题的逆否命题成立,定理得证。

由定理51可以得出结论,分类器的输出相似性要强于输入相似性,因此可以通过分类器的输出相似性来衡量分类器间的相似程度。

通过本节叙述可知,使用两个特征子集训练的分类器之间的相似性越低,分类器的多样性越好,它们的互补性越强,由这些分类器组成的多分类器系统能够更好地利用高维特征蕴含的信息,从而进一步提升分类性能。

5.3基于特征选择的多分类器方法

根据“没有免费的午餐”定律,不存在单个分类算法能够适用于所有的问题,这是由于算法中的分类器是运行在特定环境中,其对类别的判定能力与具体问题相关。而集成学习是一种与算法无关的提升分类性能的方法,通过集成学习将性能较弱的分类器(至少优于随机分类器)进行组合,能够形成具有更好分类性能的多分类器方法。本节基于集成学习的思想,针对高维数据实体分辨,设计一种具有较强分类性能的多分类器方法,并基于单目标蚁群算法和多目标蚁群算法实现该方法。

5.3.1系统模型设计

针对高维数据实体分辨问题,提出基于特征选择的的多分类器方法(基分类器为二分类器)(Multiple Classifier System Based on Feature Selection,MCSBFS),其设计结构模型描述如下:  

对于含有M个(M为奇数)分类器的多分类器方法,记Pm为第m(m≥2)个分类器的分类正确率,qm为第m个分类器输入特征子集的基数,采用以下目标函数构造第m个分类器:  
max Pm(515)
max1-maxm-1j=1 Sc(pj,pm)(516)
min qm(517)
式(515)表明希望所设计的第m个分类器,具有最优的分类正确率; 式(516)比较当前分类器与前m-1个分类器的相似性,选择使得第m个分类器与其他m-1个分类器之间具有最大不相似性的特征子集,即互补特征子集,从而最大化分类器的多样性; 式(517)说明希望选择基数最小的特征子集。从目标函数的定义可以看出,3个目标之间互相冲突,因此该模型是一个多目标优化问题。

由于多分类器方法是由多个分类器构成,因此需要对分类器的输出结果进行集成,形成最终的分类预测值。MCSBFS使用多数投票表决实现分类结果的集成,定义fmn为第n个样本在第m个二类分类器上的函数决策值,它的预测值表示如式(518)所示
fmn=1,匹配
2,不匹配(518)
则对于基分类器个数为M个(M为奇数)的多分类器系统,第n个样本的集成输出结果如式(519)所示
classn=f1nf2n…fMn(519)
式(519)中,表示异或运算,即将多数基分类器的输出作为多分类器系统的分类预测值。

5.3.2方法实现

以上给出了MCSBFS方法的模型设计,本节给出基于蚁群算法的方法模型实现。由于MCSBFS方法模型是一个多目标优化问题,因此可以采用两种方式求解实现:  一种是将多目标优化问题转换为单目标优化问题; 另一种是直接作为多目标优化问题求解。针对这两种求解方式,设计两种基于蚁群算法的实现方法。蚁群算法的相关介绍见第3章,这里不再赘述。

1. 单目标蚁群算法实现

首先给出MCSBFS方法的单目标蚁群算法实现,在给定分类器时,对MCSBFS方法模型做如下分析:  

(1) 在特征子集基数的确定前提下,将式(515)与式(516)进行加权聚合,转化为单目标优化函数,如式(520)所示
max{r1Pm+r2[maxm-1j=1 Sc(pj,pm)]}(520)
其中,r1与r2是聚合参数,且有r1>0,r2>0,r1+r2=1。在设计第m个分类器的过程中,通过聚合参数控制当前分类器的分类性能与分类器多样性之间的平衡,因此求解式(520)的关键在于确定聚合参数的值。由于求解第一个分类器模型时,目标函数式(516)并不存在,因此可以直接使用式(515)评估特征子集。

(2) 式(517)的求解关键在于确定分类器的特征子集基数。由于蚁群算法选择特征时需要事先给定特征的个数,另一方面,当特征个数在1~15时,分类器能够在分类性能与运算效率之间达到较好平衡。不失一般性,将特征子集基数qm的取值范围限定在[1,20],确保不丢失边缘解且不会造成高昂的时间开销。

(3) 算法在当前的特征子集基数条件下迭代完成后,需要为当前分类器选择较好的特征子集。设定转换后的优化目标式(520)的优先级高于式(517),当特征子集基数不同时,优先选择使得目标式(520)的值较大的特征子集; 当两个特征子集的评估值相等时,选择特征基数较小的特征子集。需要特别说明的是,求解第一个分类器模型时,由于目标函数式(516)并不存在,因此当特征子集基数不同时,优先选择使得目标式(515)的值较大的特征子集,当两个特征子集的评估值相等时,选择基数较小的特征子集。

综上,基于单目标蚁群算法的MCSBFS方法模型实现伪代码描述如表51所示。


表51分类器的单目标蚁群算法求解



输入:  聚合参数值r1与r2,信息素重要程度值α,启发式信息重要程度值β,蚂蚁个数N,蚁群算法最大迭代次数iter

输出:  特征子集St

1.for 1≤qm≤20 do

2.初始化蚁群算法信息素矩阵、启发式信息;

3.while ite(当前迭代次数)<iter do

4.for 1≤ant≤N do

5.蚂蚁搜索特征子集;

6.end for

7.按照分析(1)选择较好的特征子集并更新信息素矩阵;

8.end while

9.按照分析(3)更新较好特征子集St;

10.end for



表51中第1行表示当前分类器的特征子集基数,第2~9行是在当前特征子集基数确定的条件下,通过单目标蚁群算法搜索满足优化目标的特征子集,第3~8行是蚁群算法搜索过程,第4~6行是在一次循环中,蚂蚁搜索特征子集的过程,第7行是根据分析(1)选择较好特征子集并更新信息素矩阵,第9行是根据分析(3)更新当前分类器的特征子集。现对多分类器方法的单目标蚁群算法求解作复杂度分析:  设分类器个数为M,数据特征的规模为C,每只蚂蚁搜索特征子集的时间为O(C2),因此蚁群算法的运行时间为O(iter×N×C2),多分类器方法的求解运算时间为O(M×|qm|×iter×N×C2)。

2. 多目标蚁群算法实现

本节给出MCSBFS方法的多目标蚁群算法实现,在给定分类器时,对MCSBFS方法的模型分析如下。

(1) 在特征子集基数确定的前提下,将式(515)与式(516)作为多目标优化问题的两个优化目标进行考虑,如式(521)所示
max F=(f1,f2)T(521)
其中,f1为目标式(515),f2为目标式(516)。多目标优化问题的解为帕累托解,帕累托解的个数通常不唯一,因此算法开始前需要设置帕累托档案并指定档案规模,用帕累托档案记录帕累托解,在算法迭代过程中需要基于帕累托支配关系使用新生成的解更新帕累托档案。与5.3.2.1节分析(1)相似,当求解第一个分类器模型时,目标函数式(516)并不存在,因此直接通过式(515)评估特征子集并进行优劣比较,此时帕累托档案不存在,仅有一个最优解。

(2) 对式(517)的分析与5.3.2.1节分析(2)一致,这里不再赘述。

(3) 当完成指定基数条件下特征子集的搜索后,为当前分类器选择特征子集的过程如下:  比较帕累托档案中所有解在目标函数f1上的评估值,选择评估值最大的帕累托解(特征子集); 若存在多个使得目标函数f1取值最大的帕累托解,比较它们在目标函数f2上的评估值,选择评估值最大的帕累托解,若当前分类器为第一个分类器,则跳过此步; 否则,比较它们的特征基数,选择特征基数最小的帕累托解。

这里采用第2章提出的基于等效路径更新的两档案多目标蚁群优化作为多目标蚁群算法的具体实现,在给定分类器的前提下,基于多目标蚁群算法实现的MCSBFS方法模型求解伪代码如表52所示。


表52分类器的多目标蚁群算法求解



输入:  帕累托档案规模Np,信息素重要程度值α,启发式信息重要程度值β,蚂蚁个数N,蚁群算法最大迭代次数iter;

输出:  特征子集St

1.for 1≤qm≤20 do

2.初始化多蚁群算法信息素矩阵、启发式信息以及帕累托档案;

3.while ite<iter do

4.for 1≤ant≤N do

5.蚂蚁搜索特征子集;

6.end for

7.按照分析(1)更新帕累托档案,同时更新信息素矩阵;

8.end while

9.按照分析(3)更新较好特征子集St;

10.end for



与单目标蚁群算法求解实现类似,表52中第1行表示当前分类器的特征子集基数,第2~9行是在当前特征子集基数确定的条件下,搜索满足优化目标的特征子集。现对多分类器方法的多目标蚁群算法求解作复杂度分析:  设分类器个数为M,数据特征的规模为C,每只蚂蚁搜索特征子集的时间为O(C2),更新帕累托档案的时间为O(Np2),因此蚁群算法的运行时间为O(iter×N×Np2×C2),多分类器方法的求解运算时间为O(M×|qm|×iter×N×Np2×C2)。

5.4实验与分析

本节验证评估MCSBFS方法,首先给出实验数据与对比方法,然后进行测试验证。

5.4.1实验设置与对比方法

由于实体分辨问题与分类问题在数学模型上是一致的,且论文将实体分辨作为二分类问题,因此仅需使用二分类数据验证实体分辨方法即可。实验采用10个标准测试数据集,其中4个数据集是第3章使用的标准测试数据集,其他6个数据集来源于UCI网站,10个数据集的相关信息如表53所示。


表53实验数据集信息



数据集实例规模特征个数特征选择范围

BASEHOCK19934862[1,20]

PCMAC19433289[1,20]

RELATHE14274322[1,20]

MADELON2600500[1,20]

IONOSPHERE35135[1,20]

PRDS18213[1,11]

SONAR20861[1,20]

STATLOGHEART27014[1,12]

CLIMATE54018[1,16]

ZALIZADEH30356[1,20]


表53中特征选择范围表示特征子集基数的限定范围,为了防止丢失边缘解,特征个数的下限设置为1,若原始特征维度大于20,则上限设定为20,若小于20,则上限设定为特征维度减2(特征中包含类标)。

由于MCSBFS方法中包含特征选择和集成学习的思想和技术,为了全面验证方法的有效性和优越性,从特征选择和集成学习两个方面选择5个具有代表性的对比算法,即基于蚁群优化的特征选择(Feature Selection Based on Ant Colony Optimization,FSBACO)[3]、信息增益(IG)和ReliefF、以及集成学习方法AdaBoost和随机森林(Random Forest,RF)。FSBACO方法以查准率和查全率作为特征选择的优化目标,通过加权聚合将其转换为单目标优化问题并采用蚁群算法求解,具有优异的性能表现; IG和ReliefF是常用的特征选择方法,尽管它们独立于分类器选择特征,但具有较强的搜索性能,在实际应用中得到了广泛使用; AdaBoost和RF是具有代表性的两种集成学习算法,AdaBoost是一种迭代式的集成学习方法,通过调整样本权重逐个训练基分类器,RF则将特征选择与Bootstrap结合,具有较强的鲁棒性和分类性能。

使用分类正确率P、查准率(Precision)Pr、查全率(Recall)Re和F1作为实验的测量指标。

5.4.2实验验证与结果分析

由于MCSBFS使用多目标蚁群算法和单目标蚁群算法两种方式实现,因此需要对这两种实现方法的性能作比较分析,将采用多目标蚁群算法实现的方法作为Method1,采用单目标蚁群算法实现的方法作为Method2。

首先分析Method1和Method2方法中基分类器个数的参数敏感性。Method1的参数设置如下:  α=1,β=2,Q=0.2,信息素初始浓度τ(0)=100,迭代次数为80,帕累托档案规模为40。除了帕累托档案规模,Method2的参数设置与Method1相同,为了使得基分类器具有更好的分类性能,设置Method2中的聚合参数r1=0.6,r2=0.4。以SONAR为测试数据集,采用支持向量机作为分类器,选择径向基核函数,宽度设置为0.4,平衡参数为100,将20轮5重交叉检验的均值作为输出,在基分类器个数从3增加到41的情况下,两种方法指标值的变化趋势如图53所示。



图53基分类器参数敏感性分析


首先观察Method1的参数敏感性分析图。可以看出,4个指标值总体呈现先上升后下降的趋势。在基分类器个数为3的时候,4个指标的数值最低,随着基分类器个数的增加,虽然指标值有一定幅度的波动,但其趋势是在不断上升,当基分类器个数达到21时,除查全率Re,其他3个指标值达到最好。尽管在基分类器个数达到33时,查全率Re才达到最好,但与分类器为21时的Re值相比,并未有显著提升。因此当基分类器个数为21时,Method1方法的综合性能最好。

观察Method2的参数敏感性分析图。与Method1方法相比,Method2相关指标的参数敏感性变化趋势并不显著,但可以看出,当基分类器个数同样为21时,除查全率Re指标外,其他3个指标值达到最好。造成两种方法的参数取值一致的原因可能是由于Method1与Method2方法的求解模型一致,实现方式上的差异对多分类器方法的影响要弱于基分类器个数对多分类器方法的影响。

下面对MCSBFS方法的性能作比较分析,Method1和Method2的参数设置不变,基分类器个数设定为为21; FSBACO的参数设置与原文相同; IG和ReliefF方法使用特征选择范围内的最好结果作为输出; AdaBoost与RF方法使用决策树作为分类器,基分类器个数设定为100。使用20轮5重交叉检验的均值作为输出,分类器仍然使用支持向量机(参数不变),6种方法在4个指标上的测试结果如表54~表513所示。


表54BASEHOCK数据集实验结果




实验方法P/%Pr/%Re/%F1

Method191.9786.5699.390.9252

Method282.0973.7399.700.8475

FSBACO91.1285.3299.310.9178

IG90.8284.9899.100.9149

ReliefF89.9283.7799.100.9077

AdaBoost92.7388.7297.900.9306

RF88.9186.7693.730.8933




表55PCMAC数据集实验结果



实验方法P/%Pr/%Re/%F1

Method187.8581.4398.580.8915

Method278.0770.1798.890.8205

FSBACO87.0380.2498.660.8846

IG83.1775.6598.280.8548

ReliefF82.6674.9498.680.8518

AdaBoost87.6585.2192.160.8828

RF83.1780.2490.750.8453




表56RELATHE数据集实验结果



实验方法P/%Pr/%Re/%F1

Method176.3169.8399.620.8209

Method265.2461.071000.7581

FSBACO76.1069.6899.230.8180

IG62.9359.8997.570.7417

ReliefF62.9359.8897.700.7420

AdaBoost83.1189.4278.280.8347

RF59.8557.8099.870.7300




表57MADELON数据集实验结果



实验方法P/%Pr/%Re/%F1

Method191.8192.2391.330.9178

Method291.1991.5690.750.9112

FSBACO90.6292.0189.000.9046

IG87.9688.2687.620.8792

ReliefF88.5488.9787.900.8841

AdaBoost59.0459.0359.430.5916

RF55.5859.6159.790.5340




表58IONOSPHERE数据集实验结果




实验方法P/%Pr/%Re/%F1

Method197.7296.591000.9826

Method294.2993.6498.250.9586

FSBACO96.3095.1199.100.9703

IG90.8789.7196.660.9302

ReliefF84.9082.2697.820.8926

AdaBoost90.8989.6996.890.9310

RF92.8891.3498.210.9462




表59PRDS数据集实验结果



实验方法P/%Pr/%Re/%F1

Method180.7778.671000.8788

Method275.8474.9199.200.8530

FSBACO79.6178.5898.530.8718

IG70.3973.7791.620.8143

ReliefF63.2170.6984.030.7642

AdaBoost59.8669.1980.250.7394

RF72.5472.201000.8375




表510SONAR数据集实验结果



实验方法P/%Pr/%Re/%F1

Method198.5710097.400.9865

Method297.1498.8295.020.9685

FSBACO95.6810090.480.9495

IG81.7885.4074.410.7880

ReliefF78.8780.2374.270.7688

AdaBoost77.4679.1771.410.7416

RF78.7989.0164.800.7381




表511STATLOGHEART数据集实验结果



实验方法P/%Pr/%Re/%F1

Method189.6390.3391.200.9066

Method286.3085.9490.440.8796

FSBACO87.7886.9192.090.8938

IG81.4880.7687.200.8376

ReliefF63.3366.5268.090.6706

AdaBoost78.8980.0583.000.8138

RF82.9682.6888.670.8520




表512CLIMATE数据集实验结果



实验方法P/%Pr/%Re/%F1

Method195.3795.181000.9752

Method293.5293.361000.9655

FSBACO95.1995.1499.790.9740

IG92.7893.3799.200.9615

ReliefF91.1191.7699.180.9531

AdaBoost91.3093.7696.970.9531

RF91.8591.9999.800.9572




表513ZALIZADEH数据集实验结果



实验方法P/%Pr/%Re/%F1

Method193.4092.2699.080.9555

Method290.1089.1398.110.9338

FSBACO91.7494.7193.440.9403

IG84.1488.7789.310.8899

ReliefF72.9177.4587.450.8212

AdaBoost88.1390.5592.970.9168

RF85.5085.8695.270.9023


从两个方面分析表54~表513中的结果,即两种不同实现方式的性能比较以及MCSBFS方法与其他方法的比较。

首先分析两种实现方式的性能差异。通过统计算法提供的最优值可以看出,与单目标蚁群算法实现的Method2相比,多目标蚁群算法实现的Method1在测试数据集上取得了更好的效果。在分类正确率P、查准率Pr和F1指标方面,Method1在所有测试数据集上均优于Method2,而在查全率Re指标上,Method1在5个数据集上优于Method2。造成该结果的原因是,Method2将模型通过聚合转换为单目标优化问题求解,由于将多目标优化问题转换为单目标优化问题时,算法仅能够搜索帕累托前沿的某一部分,造成其他部分帕累托解的丢失,从而导致无法寻找到较好的帕累托解。

其次,对多目标蚁群算法实现的方法Method1与其他方法的性能作比较分析。可以看出,除了在PCMAC数据集的Re指标和SONAR数据集的Pr指标上,Method1在所有测试数据上都优于FSBACO,特别是在F1指标上,Method1都取得了更高的评估值,说明Method1具有更好的分类性能,可以得出结论,使用互补特征子集能够进一步提高特征信息的利用率,从而提高算法的分类性能。观察IG和ReliefF方法,一方面,在多数测试数据集上,IG的分类性能要好于ReliefF,另一方面,IG和ReliefF的指标值都要低于Method1,这说明仅使用特征选择方法无法获得更好的分类效果; 同时IG和ReliefF的分类性能指标值也要低于FSBACO,该结论表明,独立于分类器的特征选择无法取得更好的分类性能。最后分析集成学习方法AdaBoost与RF,AdaBoost在BASEHOCK和RELATHE数据集上的分类结果好于Method1,在PCMAC数据集上,查准率Pr也要好于Method1,但是在其他测试数据集上,Method1的分类性能好于AdaBoost,这说明集成学习在能够一定程度上有效提升分类器的分类性能,然而由于AdaBoost没有使用特征选择,因此其效果要弱于Method1。此外,虽然RF结合了抽样和特征选择,但是Method1的分类性能也要优于RF,表明Method1采用的互补特征子集能够更加有效提升集成分类器的分类性能。

本章小结

为了有效解决当前特征选择方法在高维数据实体分辨问题中特征利用率较低的不足,基于集成学习思想,提出针对高维数据实体分辨的多分类器方法。首先定义分类器性能度量和分类器相似性; 然后设计集成分类器,使用分类正确率、特征个数和分类器间的相似性作为优化目标,从而选择互补特征子集并训练分类器,使得每个特征子集在具有较小规模的同时,多个互补特征子集能够有效利用高维数据蕴含的丰富信息。采用多目标蚁群算法和单目标蚁群算法两种方式实现模型,在标准测试数据集上与对比方法的实验结果显示,使用多目标蚁群算法实现的多分类器方法具有优越性。

本章参考文献


[1]曹建军.基于提升小波包和改进蚁群算法的自行火炮在线诊断研究[D].石家庄:  军械工程学院,2008.

[2]Richard O D,Perer E H.Pattern Classification and Scene Analysis[M].New York:  John Willey and Sons,2001:  131132.

[3]曹建军,刁兴春,杜鹢,等.基于蚁群特征选择的相似重复记录分类检测[J].兵工学报,2010,31(9):  12221227.