第5章〓基于不同表征网络集成的极端多标签学习


极端多标签学习相较于传统多标签学习的显著区别，在于其涉及的标签数量极为庞大，这一特性在极端多标签文本分类任务中极为凸显，特别是在如Wikipedia标注任务中，标签数量高达数百万。面对这一挑战，本章将聚焦极端多标签文本分类，主要面临的挑战包括： 一是庞大的标签集合极大地增加了处理过程中的时间和空间开销，从而限制了传统多标签学习方法的有效应用； 二是巨大的标签空间带来了数据稀疏和可扩展性问题，如何设计有效的网络结构，既能兼顾可扩展性又能提升预测性能显得尤为重要。本章基于深度网络强大的表征能力，研究基于不同表征网络集成的极端多标签文本分类： 一是基于CNN和RNN不同表征能力，提出了自适应空时表征集成的HybridRCNN框架，该算法集成了词、短语、标签三者之间交互注意力，有效地提升了分类器对极端多标签的判别能力，但该方法仅能适应中间量级多标签文本分类（100~30000），并不能适应标签数量极端的学习任务，使得该算法仍然存在局限； 二是本章利用了多种Transformer模型的独特表征能力，如BERT［141］、RoBERTa［142］、XLNet［143］等，提出了MultiVTransformer框架，该框架集成了多视图的Transformer表征。该算法通过高效地对海量标签进行聚类处理，有效缓解了由于标签数量庞大而引发的可扩展性问题，同时，借助多视图注意力表征机制、极端多标签聚类学习策略和简化的标签集嵌入学习技术，MultiVTransformer框架显著提升了模型在复杂场景下的泛化能力。此外，针对多样化的标签量级任务，本章所设计的HybridRCNN与MultiVTransformer算法能够形成互补优势，协同应用。实验结果显示在处理极端多标签文本分类任务时，HybridRCNN和MultiVTransformer均展现出了优异的性能，表明了这两种算法在该领域内的有效性和实用性。


5.1引言 

极端多标签学习旨在从巨大标签集中找出与问题最相关的标签子集来标记数据样本，如Wikipedia文本分类任务，有超过100万个标签，需要从这个巨大标签集中找出相关标签来标注新文章或者网页； 然而，要同时处理大量的标签、维度和训练样本，使得极端多标签学习变得非常具有挑战性。与传统多标签学习任务相比，极端多标签学习需要解决两个问题： 一是巨大的时间和空间开销； 二是标签稀疏和可扩展性。为解决上述的问题，存在的极端多标签学习方法主要有四类： 一是传统的1vsAll方法。该方法是把多标签分类转化为多个二分类，该类方法并未考虑标签之间的相关性，并且当标签量大的时候难以训练与标签等量的模型。二是基于树的集成方法［144145］。该方法与传统的决策树学习方法相似，将实例空间或子空间递归划分为树状结构，并在每个非叶子节点上建立基分类器，只关注该节点上的少数活动标签，代表性的算法如FastXML［146］。三是基于嵌入的方法［147148］。该方法旨在减少标签的有效数量，通过对较大的标签空间进行低秩假设，使其线性嵌入到低维标签向量中，从而使训练和预测过程变得容易，在预测阶段，通过将嵌入的标签向量映射到高维标签空间，代表性的算法如SLEEC［43］和DXML［21］。四是基于深度学习的方法。该方法主要利用CNN、RNN等强大的深度网络表征能力来实现文本的分类，如TextRNN［149］、AttentionXML［150］、DRNN［151］、Transformer［152］等。

在深度文本分类任务中，注意力机制被广泛使用，如Transformer［152］，主要通过探索词与词之间的关系来提升网络的性能，然而在多标签文本分类中，不仅需要考虑词与词之间的关系，还需要考虑短语与短语、词与标签、短语与标签之间的关系，因为有些标签就是一个短语，并且标签之间存在着较强的依赖关系，因此许多研究者致力于联合CNN和RNN强大的表征能力来探索词、短语、标签之间的关系，如RCNN［153］、DRNN［151］、CRAN［154］、GRA［155］、LAHA［156］、AttConvNet［157］等。然而，这些方法只是考虑词、短语、标签三者之间局部的关系，而没有全部考虑三者之间的关系，因此基于注意力机制，我们提出了自适应空时表征集成的HybridRCNN框架，同时性地考虑了词与词、短语与短语、词与标签、短语与标签之间的关系。

尽管HybridRCNN对不是非常极端的多标签文本分类任务取得不错的结果（通常标签数量为100~30000），然而当标签量非常极端时，网络模型带来的时间和空间开销使得模型可扩展性差。为解决极端多标签问题，XMLCNN［36］和MACH［158］通过基于嵌入的方式约简标签进行极端多标签学习，AttentionXML［150］通过对标签集进行聚类，然后使用注意力机制完成对极端多标签的学习。进一步，提出了许多基于阶段式的极端多标签学习方法，DeepXML［159］提出了一种四阶段的分解任务来解决极端多标签学习，XTransformer［160］把极端多标签学习任务分解为标签聚类和标签排序两个阶段。这些方法存在两个缺点： 一是都需要阶段式的训练，并未实现极端多标签的端到端学习； 二是这些方法并未考虑标签之间的关系，也没有根据标签簇的学习得分进行排序来约简标签。因此，我们提出了一种改进的基于多视图Transformer表征集成的MultiVTransformer，该算法不仅可以端到端地解决极端多标签的学习场景，而且通过多视图注意力表征、极端多标签聚类学习和约简的标签集嵌入学习来提升模型的泛化性能，有效地弥补了HybridRCNN使用局限。MultiVTransformer与HybridRCNN存在的不同： 一是表征网络不同，HybridRCNN采用CNN和RNN异构网络集成，而MultiVTransformer采用Transformer同构网络集成； 二是HybridRCNN探索词与标签、短语与标签关系通过不同注意力模块，而MultiVTransformer采用多视图注意力和关系增强模块； 三是HybridRCNN不能适应极端标签量级，而MultiVTransformer通过聚类约简学习少量的模型参数以适应极端标签量级； 四是HybridRCNN采用传统的二值交叉熵损失，而MultiVTransformer考虑了标签的不平衡，采用了不平衡Focal损失［161］进行训练。

综上所述，本章可以概括如下： 

（1） 本章详尽阐述了HybridRCNN框架，该框架集成了自适应空时表征技术，同时考虑了词间、短语间、词与标签间，以及短语与标签间的多维度关联。HybridRCNN框架通过实施一种高效的自适应加权集成策略，成功融合了卷积神经网络（CNN）与循环神经网络（RNN）各自的优势信息，从而显著增强了分类器的识别精度与性能。

（2） 我们提出集成Transformer多视图表征结构的MultiVTransformer框架，该算法通过聚类排序模块能有效适应极端标签量级分类任务，并且通过多视图注意力表征、极端多标签聚类学习和约简的标签集嵌入学习来提升模型的泛化性能。

（3） HybridRCNN和MultiVTransformer可以互补使用，并且实验在大量的多标签文本分类任务上验证了提出方法的有效性。

5.2问题描述

在多标签文本分类任务中，令D={(x1,y1),(x2,y2),…,(xN,yN)}表示一个原生文档，其中N表示训练的文档数，且每个文档yi有k个标签（k的标签集有上百万个），每个文档有n个词，并且每个词可以用word2vec技术表示为d维的词嵌入向量，即et∈Rd,t={1,2,…,n}，yi∈{0,1}k是对应文档xi=(e1,e2,…,en)的标签。如果ith文档与jth个标签相关，则yij=1； 否则，yij=0。我们的目标是学习一个函数f(xi)∈Rk给所有的标签打分，f需要给标记为yil=1的l标签较高的分数，因此能通过f(xi)获得一个topk的预测标签集。

给定一个d维的词嵌入向量et∈Rd,t={1,2,…,n}，输入xi=(e1,e2,…,en)可以表示为维度为d×n的一个特征图，在文本分类中可以通过使用CNN和RNN获取短语级的表征和词级的表征。

（1） 短语级表征CNN。给定文档表示xi∈Rd×n，应用卷积核Wi∈Rω×d和偏差项bi学习ωgrams短语级的表征，令向量ci表示词(ei－ω+1,…,ei)的联合，则特征pi表示为


pi=σ(Conv1D(Wi，ci)+bi)
(5.1）


式中： σ为激活函数； Conv1D(a,b)是1维卷积操作，a为卷积核，b为输入。p=p1,p2,…,pn－ω+1∈Rn－ω+1能被产生通过每个词级窗口，最后通过CNN获得一个短语级的表征P∈R2r×l，其中2r为核数，l为词序列的长度。

（2） 词级表征RNN。给定一个文档xi∈Rd×n，使用BiGRU［162］模型学习双向的词级信息，BiGRU的输出可以表示为


H=［Hf； Hb］



式中



Hf=(h→1,…,h→n),Hb=(h←1,…,h←n)
(5.2）


其中: h→t∈Rr和h←t∈Rr分别表示一个r维的前向和后向词级表。整个输出H∈R2r×n表示词级表征。下面分别介绍HybridRCNN和MultiVTransformer方法。

5.3HybridRCNN框架

如图5.1所示，我们提出的自适应空时表征集成的HybridRCNN网络结构分为两个分支，通过不同的注意力机制进行融合，最后输出文档的空时表征，整个网络是一个端到端的框架。下面分别介绍空间语义信息表征和时序语义信息表征两个分支。




图5.1HybridRCNN网络结构



5.3.1空间语义信息表征

尽管式（5.1）可以表示短语级信息，但它只是简单地考虑输出结果的激活，而忽略语言关系和输出结果之间的细粒度信号。我们通过混合的注意力机制，包括多头的自注意力和交互注意力，最终得到更好的空间语义信息表征。该表征不仅考虑了短语与短语关系，还考虑了短语与标签之间的关系。




图5.2HybridRCNN子模块结构图



1. 卷积的多头自注意力

基于点积的注意力，如图5.2（a）为卷积的多头自注意力的示意图，Q∈R2r×l、K∈R2r×l和V∈R2r×l分别表示query、key、value三个嵌入矩阵，注意力输出矩阵表示为


Attention(Q,K,V)=softmaxQKT2rV
(5.3）


其中query根据相应的key计算权重指派值，权重矩阵被2r尺度化，根据式（5.1），矩阵Q∈R2r×l、K∈R2r×l和V∈R2r×l可计算如下： 


Q=σ(Conv1D(Wq,c)+bq)
K=σ(Conv1D(Wk,c)+bk)
V=σ(Conv1D(Wv,c)+bv)
(5.4）


其中激活函数σ设置为ELU［163］，基于Transformer，多头注意力能得到比单头注意力更好的结构，因此使用多头注意力表达不同部分的信息： 


P=Mutihead Attention(Q,K,V)=Concat(head1,head2,…,headh)
where headi=Attention(Qi,Ki,Vi)
(5.5）


其中联合输出P∈R2r×l通过h个并行的注意力层扩展了单头注意力的能力。在多标签文本分类任务中，由于每个文档能被指派到多个标签，因此使用多标签注意力机制来聚焦不同的标签关系，基于联合矩阵P∈R2r×l，最后输出多标签注意力Sj(j=1,2,…,k)表示为


Sj=∑ni=1αijPi,Ti=tanh(PiW(1)j),αij=softmax(TiW(2)j)
(5.6）


式中： W(1)j∈R2r和W(2)j∈R2r为需要学习的参数； αij为标准化的第j个标签的权重，整个的S∈R2r×k是在卷积多头自注意力下的空间语义信息表征。

2. 交互注意力

为了充分利用标签的关系信息，可以通过交互注意力捕捉标签和短语之间的细粒度交互信息，如图5.2（b）所示。使用标签共现图探索标签的结构信息，即每个标签可以看作一个节点，若任意两个标签共同出现在一个文档中，则标签之间有边相连。基于随机游走，使用Node2Vec［164］图嵌入技术捕捉高阶的标签依赖关系，每个标签能被表达为2r维向量，即Lj∈R2r(j=1,2,…，k)表示第i个标签，因此整个标签嵌入表示为L∈Rk×2r。基于矩阵K∈R2r×l和V∈R2r×l，交互注意力下的空间语义信息表征表示为


I1=V×softmax(LK)T
(5.7）


式中： K∈R2r×l和V∈R2r×l根据式（5.4）能得到； 交互矩阵LK表达了标签嵌入和短语表征之间的交互信息。

基于CNN结构，可得到矩阵S∈R2r×k和I1∈R2r×k，S∈R2r×k聚焦于短语语义，I1∈R2r×k聚焦于标签关系语义，最后空间的语义信息表征通过联合可表示为

C=Concat(S,I1)
(5.8)




5.3.2时序语义信息表征

尽管式（5.2）在文本分类任务中取得了很大的成果，但是它自然地忽略了细粒度的词级线索（因为一个文档中的单词对不同的标签有不同的贡献），因此使用混合的注意力机制捕捉时序的语义信息表征，包括循环的自注意力和交互注意力。

1. 循环的自注意力

为了更好地建模上下文词级依赖关系，使用加权自注意机制来关注文档的不同方面，这不仅可以学习长期的时间依赖性，还可以捕获文档的各种密集部分，如图5.2（c）所示。类似于式（5.6），循环的自注意力U∈R2r×k可描述为


T=tanh(W1H)，A=softmax(W2T)T，U=HA
(5.9）


式中： A∈Rn×k为注意力得分矩阵； W1∈Rd×2r和W2∈Rk×d为可学习的参数； U∈R2r×k为循环自注意力下的时序文档表示。

2. 交互注意力

与CNN中的交互注意力类似，引入交互注意力来捕获细粒度的词级信号，计算单词和标签之间的匹配分数，根据式（5.7），基于RNN的交互注意力可描述为


I2=H×softmax［L,L］Hf
HbT
(5.10）


式中： I2∈R2r×k通过联合矩阵H可以计算得到，表示交互注意力下的时序语义信息。

基于RNN结构，可得到矩阵U∈R2r×k和I2∈R2r×k,最后空间的语义信息表征通过联合可表示为


R=Concat(U,I2)
(5.11）


5.3.3自适应权重集成预测

基于集成学习思想，我们设计了一种自适应加权集成策略，自然地集成两种互补信息以实现最终的空时文档表征。当C∈R2r×k和R∈R2r×k获得之后，首先使用l2标准化它们，然后通过一个MLP层和全连接层转换C∈R2r×k和R∈R2r×k到权重α∈Rk×1和β∈Rk×1： 



α=σ(Wα1tanh(Wα2C+bα))
β=σ(Wβ1tanh(Wβ2R+bβ))
(5.12）


式中： Wα1、Wα2、Wβ1和Wβ2为可学习的参数； bα和bβ为偏置项。

标准化权重获得最后的空时文档表征： 


α=αα+β，β=βα+β
T=α×C+β×R
(5.13）


式中： T∈R2r×k表示最后的空时语义表征，通过权重α和β不仅可以表达空间语义信息和时间语义信息表征的重要性，而且大大地拓宽了传统CNN和RNN表征范围的限制。当得到T∈R2r×k之后，可以全连接层建立分类器，获得预测： 


Y^=σ(WY1relu(WY2T))
(5.14）


式中： WY1∈R1×r和WY2∈Rr×2r为预测层的参数； σ为sigmoid函数。

使用二值交叉熵损失为多标签文本分类： 


Lloss=－1N∑Ni=1∑kj=1yijlog(Y^ij)+(1－yij)log(1－Y^ij)
(5.15）


在5.5节，HybridRCNN大量的实验表明了HybridRCNN具有较好性能。但是，当标签量达极端量级时，由于标签空间的增加，该模型的可扩展性存在局限。我们提出改进的MultiVTransformer框架来弥补可扩展性的问题。

5.4改进的MultiVTransformer框架

近年来，Transformer已经受到了广泛的关注，不管是在文本领域还是图像领域，Transformer都取得了比CNN和RNN好的结果，因此使用不同Transformer表征结构代替CNN和RNN来提取文档表征，如BERT［141］、RoBERTa［142］、XLNet［143］等； 另外，当应用到图像领域的多标签学习任务时，只需要把特征提取器变换为视觉Transformer即可，如Vision Transformer［165］、DETR［166］、Image GPT［167］等。在极端多标签学习任务中，HybridRCNN仅能适应标签量在万级的，并不能适应标签量在百万级的。因此，我们提出MultiVTransformer框架来解决这种过度极端的多标签学习任务，如图5.3所示。










图5.3MultiVTransformer网络结构



5.4.1多视图注意力Transformer表征

在NLP任务中，Transformer模型具有较好的表征性能，为了适应标签到百万的量，没有使用较大的Transformer模型（24层，且1024的隐藏维度），仅使用基本的Transformer模型（12层，且768的隐藏维度），即r=768，输入序列长度l设置为128，为了更好地表达富的文本信息，联合最后输出的2层Transformer，即Transformer输出矩阵H∈R2r×l。

通常情况下，在极端多标签文本分类中，标签信息源自不同的分析视角，因此使用多视角注意力提取文本表征，即每个视图表征文本的一个特定领域，描述如下： 


M=∑Tt=1αmHT，αm=softmax(VmHT)=exp(Vmht)∑Tt=1exp(Vmht)
(5.16）


式中： M∈Rm×2r表示多视图Transformer表征； Vm表示第m个视图，在实验中设置m=3，也就是说从3个视角提取文本信息。

5.4.2极端多标签聚类学习

在极端多标签文本分类中，标签较为稀疏，如果完全按照传统正、负样本训练方式，将带来很大的时间和空间开销，导致模型可扩展性差，因此需要使用合适的方式对标签集进行约简，以满足实际需要。如图5.3所示，通过对标签集进行聚类来约简标签，多标签聚类学习模块分为三个步骤： 一是概率标签树聚类； 二是标签关系增强； 三是标签簇聚类学习。

1. 概率标签树聚类

首先将包含有标签的稀疏文本特征和该标签文本特征进行内积求和，然后标准化得到每个标签的特征表示，再基于AttentionXML［150］算法中的概率标签树（PLT）［140150］，使用平衡k均值（k=2）进行递归的聚类，直到满足条件： 给定每个簇的最大标签量，要求将标签划分到S个簇中，每个标签簇中包含的标签量满足小于最大标签量或者大于最大标签量的一半。得到S个簇时，基于式（5.16）得到的表征M∈Rm×2r，可以通过全连接层映射M到S维的向量P： 


P=σ(WpM+bp)
(5.17）


式中： P返回一个S维的向量表征，表示S个标签簇的得分； Wp、bp为可学习参数； σ（·）为sigmod函数。

2. 标签关系增强

在多标签分类中，标签之间存在着较强的依赖关系，HybridRCNN框架通过探索混合的词、短语和标签之间的依赖关系来提升模型的性能，然而式（5.17）忽视了不同簇之间、标签之间的关系，因此传达标签关系通过在原生的预测P基础上增加bottleneck层来实现标签增强，如图5.4所示。



P^=F(P)+P
F(P)=W2δ(W1σ(P)+b1)+b2
(5.18）


式中： W1、W2为权重矩阵； b1、b2为偏置项；  σ、δ分别为sigmoid和ELU函数。




图5.4标签关系增强



3. 标签簇聚类学习

为了更好地学习标签表征，基于聚类得到的S个簇索引，构造簇标签yS∈{0,1}S为二值onehot编码，基于二值交叉熵对学习聚类簇表征： 


LS=－1N∑Ni=1∑Sj=1ySijlog(P^ij)+(1－ySij)log(1－P^ij)
(5.19）


式中： ySij为第i个样本属于第j个簇； P^ij为第i个样本属于第j个簇的增强预测，可以由式（5.18）得到。

基于式（5.19）训练，选取前k个簇对应标签作为标签的约简集，记为U={l： l∈S}，即标签l属于簇S，这样大大地约简了原来数百万的标签。

5.4.3约简的标签集嵌入学习

当得到前k个簇之后，基于k个簇所含标签得到标签的约简集U，然后找到这些标签真实所对应的标签yU∈{0,1}U。

1. 联合约简标签集嵌入

当得到标签集U后，基于多视图表征M可以得到联合约简标签集嵌入向量Q： 


Q =σ(WQM+bQ)
(5.20）


式中： WQ、bQ为可学习参数。

2. 不平衡Focal损失

尽管约简的标签集U已经大大地缩小了训练的标签数量，但是正、负样本之间仍然存在着大的不平衡。Focal损失［161］基于二值交叉熵已经被广泛使用，其旨在降低简单负样本权重让模型重点关注更难分的样本，然而Focal损失在二值交叉熵基础上使用相同的参数γ。而在多标签问题中，正、负样本之间存在极度的不平衡，使用不平衡Focal损失对约简的标签集进行学习［168］： 


LQ=－1N∑Ni=1∑Uk=1

(1－Qk)γ+log(Qk),yUk=1
(Qk)γ－log(1－Qk),yUk=0
(5.21）


式中： yUk为约简标签集U中样本对应的真实标签； Qk为使用式（5.20）得到的预测； γ+、γ－表达了不同正、负样本权重的贡献，通常情况下，γ－>γ+，我们的实验设置γ+=0，γ－=1。

5.4.4集成的MultiVTransformer预测

在MultiVTransformer中，使用端到端的训练方式联合损失LS和LQ，从而训练损失如下： 


L=LS+LQ
(5.22）


为了提高预测精度，使用集成学习思想，根据不同的预训练模型使用多数投票的集成策略进行模型最终的预测。我们的实验选择的预训练模型为BERT［141］、RoBERTa［142］、XLNet［143］。

5.5中间量级多标签文本实验分析

选择中间量级（100~30000）多标签文本分类数据集，验证我们提出的HybridRCNN方法的有效性，HybridRCNN采用并行混合注意力机制的方式集成了CNN和RNN结构，因此比较HybridRCNN和相关的CNNRNN网络结构，如串行结构RCNN［153］、DRNN［151］，并行结构CRAN［154］，混合结构GRA［155］。此外，我们的方法也和使用基于注意力机制网络结构比较，如TextCNN［169］、TextRNN［149］、DPCNN［170］、Transformer［152］、AttConvNet［157］和LAHA［156］等。

5.5.1实验设置
1. 实验数据集

我们采用了5个基准数据集来全面验证HybridRCNN方法的有效性和性能。这些数据集的详细信息如表5.1所示，其中包含了训练样本数与测试样本数、特征总数、总的标签数、每个文档平均对应的标签数，以及每个标签平均对应的文档数。这些指标全面揭示了数据集规模、特征丰富度及标签分布情况。



表5.1中间量级多标签数据集详细信息



DatasetsNtrnNtstDLL～L^


Rcv1231497965472361023.18649.85
Ydata29999189681462484142.3986.85
Yelp196507336207446075082.96810.73
Eurlex_4k15449386518610439565.3020.79
Wiki10_31k1414666161019383093818.648.52


2. 参数设置

在HybridRCNN方法中，使用Node2Vec技术映射每个标签到一个低维的密集型向量，标签嵌入维度设置为128，多头数设置为5，为自注意力机制，注意力维度设置为16，整个深度学习模型使用Adam训练，初始学习率设置为0.008，batch大小设置为64。采用Glove［171］（300维度）作为词嵌入向量，BiGRU隐藏层维度设置为64，CNN的卷积核数设置为128。
5.5.2CNNRNN集成结构比较

HybridRCNN方法使用并行的CNNRNN结构，因此比较HybridRCNN和相关的CNNRNN网络集成结构，如串行结构RCNN［153］、DRNN［151］，并行结构CRAN［154］，混合结构GRA［155］。与第3章评估方法一样，使用评估指标如p@k{1,3,5}和ndcg@k{3,5}，详细实验结果如表5.2所示。

通过实验结果可知： 

（1） 与串行CNNRNN结构（RCNN和DRNN）相比，HybridRCNN的性能优于RCNN和DRNN。原因是RCNN和DRNN只考虑文本中的长期依赖关系和局部信息，忽略了标签语义结构信息。我们的模型不仅利用自注意机制获取长期依赖关系和局部信息，还利用交互机制获取标签语义结构信息。

（2） 与并行CNNRNN结构（CRAN）相比，HybridRCNN的性能优于CRAN。原因是CRAN通过自注意机制简单地结合CNN和RNN来学习文档表示，而我们的模型采用加权集成注意力融合策略来学习更深层次的表示。




表5.2CNNRNN集成结构实验比较


DatasetsMetrics
Methods
RCNNGRADRNNCRANHybridRCNN




Rcv1
p@194.6494.7988.3792.0894.89
p@375.1877.3662.3372.5975.53
p@552.0353.5844.5050.4352.66
ndcg@386.6388.6073.9983.8687.00
ndcg@386.6388.6073.9983.8687.00
Ydata
p@148.3950.3428.3834.1054.04
p@339.1539.8924.3924.5040.19
p@530.1130.7818.9019.3331.34
ndcg@344.8846.6326.1430.3449.66
ndcg@546.9247.8727.4332.2852.29
Yelp
p@184.9885.0181.4380.2186.70
p@351.9352.8348.7650.9557.29
p@536.5537.0334.6636.0440.73
ndcg@367.5968.8463.7165.6273.10
p@568.0969.9364.4666.3874.18
Eurlex_4k
p@173.6874.4819.7371.8175.79
p@357.5758.1415.9755.9659.66
p@546.6547.6313.5945.3848.54
ndcg@361.5562.7416.8559.963.62
ndcg@555.4356.7615.2653.9457.38

Wiki10_31k
p@180.3781.47—65.9681.26
p@350.6951.89—38.5859.47
p@537.2639.78—29.8849.23
ndcg@357.3658.34—44.3864.22
ndcg@546.2548.19—36.7655.86




（3） 与混合CNNRNN结构（GRA）相比，当标签数量增加时，HybridRCNN表现得更好。原因是GRA采用软对齐机制对短语和词序列之间的关系进行建模，而我们的模型采用交互机制对短语、词序列和标签图结构之间的关系进行建模，特别地，利用标签交互信息是多标签文本分类问题的关键。

5.5.3注意力机制网络结构比较

由于我们提出的HybridRCNN方法采用混合注意力机制，因此实验也和使用注意力机制的模型进行比较，以验证混合注意力机制的有效性。比较的基准方法有TextCNN［169］、TextRNN［149］、DPCNN［170］、Transformer［152］、AttConvNet［157］和LAHA［156］，实验结果如表5.3所示。


表5.3注意力机制网络结构比较实验结果






DatasetsMetrics
Methods
TextCNNTextRNNDPCNNTransformerAttConvNetLAHAHybridRCNN



Rcv1
p@190.9093.1390.5893.6291.8493.2294.89
p@368.8473.9967.8170.4369.0774.5275.53
p@547.8552.3147.7049.2047.9752.0452.66
ndcg@380.4386.3279.0282.3380.6185.6387.00
ndcg@581.1987.8180.3883.4381.2586.5887.85

Ydata
p@135.0753.2637.8644.2950.4045.8854.04
p@325.1737.8831.6237.2739.9635.1840.19
p@519.8430.5724.7529.1730.9728.0631.34
ndcg@331.2447.5835.1242.1146.3642.9049.66
ndcg@533.0749.8837.0944.6848.5945.8652.29

Yelp
p@181.9186.6680.3277.1786.3680.9086.70
p@350.6558.3247.1144.1059.2250.1857.29
p@535.7541.1633.2531.2341.9335.7840.73
ndcg@365.7374.0662.2158.3574.8065.0273.10
ndcg@566.2874.8662.8458.8275.7265.9874.18

Eurlex_4k
p@167.9568.2447.0339.1152.5962.8675.79
p@354.0253.1335.1228.9841.1449.2359.66
p@543.484328.5424.4833.5140.3848.54
ndcg@357.5756.8837.9731.4243.9552.663.62
ndcg@551.6251.0633.9428.7239.4847.6157.38

Wiki10_31k
p@179.6179.17—80.48—80.0281.26
p@349.5260.89—61.59—57.8359.47
p@536.3149.66—50.75—47.5449.23
ndcg@356.0865.04—65.86—62.6364.22
ndcg@545.1056.16—57.23—54.2455.86



根据表5.3可得到如下结果： 

（1） 与TextCNN和TextRNN相比，在大多数情况下，HybridRCNN的性能优于TextCNN和TextRNN。原因是HybridRCNN集成CNN和RNN网络并全面捕获语义空间和时序信息，这两者对于有效的多标签文本分类是必不可少的。

（2） 与不同注意机制模型比较，如TextCNN使用pooling attention机制、AttConvNet使用注意力卷积机制、TextRNN使用自注意力机制、LAHA使用混合注意力机制、Transformer使用多头自注意机制，在更多情况下，HybridRCNN达到了较好的性能。这也说明了对多标签文本分类，提出的混合注意机制是一种有效且灵活的方法。

（3） 与DPCNN相比，HybridRCNN也取得较好的结果。与DPCNN通过设计一个深度金字塔CNN架构来表示词级信号不同，HybridRCNN更多地考虑了词级与标签之间的交互信息。

5.5.4HybridRCNN消融分析

为了验证HybridRCNN每个组件的影响，使用消融对方法不同重要组件进行分析： 一是交互注意力模块（IA）； 二是混合注意力CNN空间文档表征（SR）； 三是混合注意力RNN时序文档表征（TR）； 四是空时文档表征（SR+TR+concat）； 五是加权的空时文档表征（SR+TR+weighted），实验针对密集数据集RCV1、 Ydata、Yelp及稀疏数据集Eurlex_4k。图5.5给出了四个数据集在Accuracy、microF1、p@k{1,3,5}不同评估指标上的结果。




图5.5HybridRCNN消融分析




通过实验结果可知： 

（1） 与单组件（SR和TR）相比，加权集成组件（SR+TR+weighted）在四种数据集中都有较好的性能，说明在处理多标签文本分类时，集成的空时文档表示比单一表示更稳定且更适合。

（2） 与SR和TR的拼接（SR+TR+concat）方法进行了比较，加权集成组件（SR+TR+weighted）提高了所有四个数据集的性能，这隐含地表明所提出的加权集成策略能够自适应地集成两种互补信息，大大提高多标签文本分类的识别能力。





5.5.5HybridRCNN可视化分析

为了进一步说明HybridRCNN的有效性，在Wiki10_31k一个实例文档上使用热图可视化来表征空时文档表示，这个实例文档包含14个标签，分别为programming、software、architecture、architect、softwaredefifinition、occupation、roles、reference、architecturemethodology、wikipedia、computer、ITrelated、duties和history。如图5.6（a）所示，通过细粒度的短语级信号，标签“architecturemethodology”可以通过短语“design of the architecture”和“design methodology”捕捉； 标签“ITrelated”可以通过短语“it related architects”捕捉，但是CNN空间文档表征忽视了词级标签“roles”和“duties”。如图5.6（b）所示，标签“roles”和“duties”能通过词级信息进行捕捉，在图5.6（c）中可观察到，空时文档表征集成了从子网CNN和RNN获得的两种互补信息，极大地提高了识别能力，这也说明我们提出的HybridRCNN结构是有效的。





5.5.6HybridRCNN时间复杂度比较

在表5.4中，我们列出了整体运行时间（由训练时间、验证时间及测试时间共同组成），所有时间均以秒为单位表示，并同时展示了模型训练时所占用的存储空间大小，单位为GB。在比较的方法中，仅仅有8个方法可以扩展到Wiki10_31k数据集，在CNNRNN框架中，我们的方法得到了与RCNN和DRNN相似的时间复杂度，而且我们的方法能够容易地通过使用多GPU并行来提升模型的训练时间。







图5.6HybridRCNN可视化分析




表5.4算法整体运行时间（训练时间+验证时间+测试时间）和模型大小比较


Methods
Rcv1YdataYelpEurlex_4kWiki10_31k
Time/sSize/GBTime/sSize/GBTime/sSize/GBTime/sSize/GBTime/sSize/GB


RCNN2950.4095560.64417121.892870.14678690.534
GRA2810.3623770.5210221.033640.14925840.56
DRNN8150.40620800.63963821.895530.132——
CRAN2300.3553080.5137181.023610.15431910.649
TextCNN920.3411820.4945111.411690.13327010.534
TextRNN2370.4083830.64110801.892400.13936140.479
DPCNN1310.4063610.6410361.892590.132——
Transformer2930.417790.64527331.894740.14730690.535
AttConvNet2680.4286620.66223711.913470.17——
LAHA1080.3444690.64615311.893620.14356320.483
HybridRNN2850.4128930.64629981.895330.12584590.453



5.6极端量级多标签文本实验分析

当标签量很大时，模型HybridRCNN存在使用局限，因此我们提出了改进的MultiVTransformer框架，使用五个标签量较大的数据集验证MultiVTransformer，并且和DiSMEC［172］、Parabel［173］、Bonsai［174］、FastXML［175］、SLEEC［43］、XMLCNN［36］、AttentionXML［150］、XTransformer［160］等极端多标签方法进行了比较。

5.6.1实验设置

（1） 实验数据集。我们利用4个基准数据集来评估MultiVTransformer方法的有效性，具体数据概览如表5.5所示，其中Ntrn、Ntst表示训练样本数和测试样本数，D是特征总数，L是总的标签数，L～是每个文档对应的平均标签数，L^是每个标签对应的平均文档数。为了进一步分析方法的可扩展性，我们特别选取了Eurlex_4k和Wiki10_31k这两个数据集进行深入探讨。


表5.5极端量级多标签数据集详细信息


DatasetsNtrnNtstDLL～L^


Eurlex_4k15449386518610439565.3020.79
Wiki10_31k1414666161019383093818.648.52
AmazonCat13K1186239306782203882133305.04448.57
Amazon670K4904491530251359096700915.453.99



（2） 参数设置。在MultiVTransformer方法中，我们使用Tesla V100 GPU训练模型，GPU显存是16G，对所有的实验，我们使用3个视图，初始学习率设置为0.0001，权重衰减设置为0.01。



5.6.2极端多标签实验比较

我们比较提出的MultiVTransformer和优秀的极端多标签学习方法，包括常用的1vsALL方法（如DiSMEC［172］、Parabel［173］、Bonsai［174］）、基于树的方法（如FastXML［175］）、基于嵌入的方法（如SLEEC［43］）、基于深度学习的方法（如XMLCNN［36］、AttentionXML［150］、XTransformer［160］），评估指标使用p@k{1,3,5}，实验结果见表5.6。

通过实验结果可知： 

（1） 与相关的深度极端多标签学习算法相比，如XMLCNN［36］、AttentionXML［150］、XTransformer［160］，我们的方法取得了较好的性能，如在Wiki10_31k数据集，我们的方法在p@1上提高了XTransformer到0.76%，提高了AttentionXML到1.8%。

（2） 相较于XTransformer，我们的方法使用极端多标签聚类学习约简标签，能在较为极端的Amazon670K数据集上进行训练，在p@1上提高了AttentionXML到1.71%。



表5.6极端量级多标签实验比较


DatasetsMetrics
Methods

DiSMECParabelBonsaiFastXMLSLEECXMLCNNAttentionXMLXTransformerMultiVTransformer


Eurlex4k
p@183.2182.1282.3076.3763.4075.3287.1287.2287.58
p@370.3968.9169.5563.3650.3560.1473.9975.1275.64
p@558.7357.8958.3552.0541.2849.2161.9262.9063.69

Wiki1031k
p@184.1384.1984.5283.0385.8881.4287.4788.5189.27
p@374.7272.4673.7667.4772.9866.2378.4878.7178.64
p@565.9463.3764.6957.7662.7056.1169.3769.6269.00

AmazonCat13K
p@193.8193.0292.9893.1190.5393.2695.9296.7096.86
p@379.0879.1479.1378.2076.3377.0682.4183.8584.31
p@564.0664.5164.4663.4161.5261.4067.3168.5869.09

Amazon670K
p@144.7844.9145.5836.9935.0533.4147.58—49.29
p@339.7239.7740.3933.2831.2530.0042.61—44.14
p@536.1735.9836.6030.5328.5627.4238.92—40.24




5.6.3MultiVTransformer集成消融分析

基于预训练模型BERT、RoBERTa、XLNet，对MultiVTransformer进行集成消融分析，结果如表5.7所示。通过对不同的预训练模型进行集成，我们的方法取得了较好的性能，例如： 在Wiki10_31k数据集，在p@1上，集成提高BERT到1.98%，提高RoBERTa到3.46%，提高XLNet到4.11%； 在Amazon670K数据集，集成提高BERT到3.02%，提高RoBERTa到2.02%，提高XLNet到2.31%。




表5.7极端量级MultiVTransformer集成消融分析


DatasetsMetrics
Methods
BERTRoBERTaXLNetEnsemble



Eurlex_4k
p@185.3085.4386.8887.58
p@373.2072.5674.2575.64
p@560.6760.2061.7263.69

Wiki10_31k
p@187.2985.8185.1689.27
p@376.0973.5373.2878.64
p@565.3263.2263.3569.00

AmazonCat13K
p@196.5796.5596.4096.86
p@383.7383.6883.3484.31
p@568.5768.4768.1469.09

Amazon670K
p@146.2747.2746.9849.29
p@341.3642.2941.9344.14
p@537.5738.4738.1940.24



5.6.4MultiVTransformer聚类学习分析

在MultiVTransformer中，我们使用极端多标签聚类学习来约简标签，随着模型训练迭代次数的增加，观察Amazon670K数据集极端多标签聚类学习（公式LS）和约简的标签集嵌入（公式LQ）两部分精度变化曲线，如图5.7所示。通过使用极端多标签聚类学习，能约简极大的多标签集，然后基于约简的标签集使用不平衡的Focal损失对约简的标签集进行学习，最终实现对极端量级的多标签学习。






图5.7不同预训练模型MultiVTransformer聚类学习分析




图5.7（续）


5.7本章小结

在本章中，针对不同量级的多标签文本分类任务，我们提出了两个网络模型，即HybridRCNN模型和MultiVTransformer模型。为了应对标签数量范围广泛（100~30000）的任务挑战，我们设计了一种创新的HybridRCNN网络架构，该架构集成了自适应空时表征技术。此架构能够同时考虑词与词之间、短语与短语之间、词与标签之间以及短语与标签之间的复杂关系。进一步地，通过实施自适应加权集成策略，HybridRCNN有效地融合了卷积神经网络（CNN）与循环神经网络（RNN）的互补信息，从而实现了分类器识别能力的大幅提升。为了适应极端量级的标签，我们提出了集成Transformer多视图表征结构的MultiVTransformer，该网络通过聚类排序模块能有效适应标签量上百万级的分类任务，并且通过多视图注意力表征、极端多标签聚类学习和约简的标签集嵌入学习来提升模型的泛化性能。最后在大量的多标签文本分类任务上与相关的优秀方法进行了比较，并验证了提出方法的有效性。