前言

随着互联网技术的不断发展,数据量的激增促使越来越多的领域数据呈现出多标签特性,如文本分类、图像标注、基因预测和疾病个性化诊疗等。这一现象推动了多标签学习在实际应用中的广泛采纳与深入探索,使之成为当前机器学习领域内一个备受瞩目的研究热点。不同于传统单标签问题(二分类任务或者多分类任务),一个样本只能属于一个类或者多个类中的一个,多标签学习允许一个实例同时属于多个类别,在实际复杂场景中,标签之间存在着共生、互斥的多种依赖关系,使得多标签学习问题变得复杂,传统单标签学习方法并不能很好地适用。因此,本书提出了一种集成多标签学习方法,旨在解决传统多标签学习在不同场景下存在的若干问题。主要应对以下挑战。

(1) 当前处理多标签学习方法大多采用集成思想,主要采用bagging、boosting、stacking集成策略,然而无论是bagging、boosting还是stacking,这些方法大多未很好地处理标签之间成对局部依赖关系。因此,如何巧妙地利用矩阵补全来有效地填补标签缺失并进行高效的多标签学习,成为一个值得深入探讨和关注的问题。

(2) 随着标签数量的增加,搜集到的多标签数据普遍存在标签缺失不完整现象,矩阵补全理论已经表明了在满足一定条件下能有效实现对缺失数据的补全。然而,当前基于矩阵补全的多标签学习方法存在两个缺点: 一是未很好地利用特征辅助信息,如流形子空间特征结构信息; 二是存在的大多矩阵补全方法仅考虑了标签集的缺失,未考虑特征集的缺失,使得传统方法存在局限性。

(3) 传统多标签学习关注的只是一个相对较少的标签量(如1000个标签及以下),但随着互联网数据的与日俱增,标签量已经突破万甚至百万量级,如在当前的一个主流应用场景——极端多标签文本分类中的。因此,如何基于当前不同深度网络表征能力,提出适合解决极端多标签(Extreme Multilabel Learning)问题的方法是一个值得关注的问题。

(4) 随着标签量不断扩增,标签呈现出长尾分布态势,即头部类占据了数据的大部分样本(Manyshot Learning),而少量的样本(Fewshot Learning)却占据了大多数尾部类。因此,如何提出适合长尾分布的多标签学习方法是一个值得关注的问题。

(5) 人类每天产生大约2.5EB的数据,以应对大数据带来的多标签学习的重大挑战,现实世界中的识别系统经常面临着看不见未知标签的挑战,使得模型泛化性能较差。因此,如何充分利用大量开放词(Openvocabulary)提升多标签学习方法是一个值得关注的问题。

针对上述多标签学习问题,本书重点介绍集成多标签学习方法。书中涉及大量计算机通识外文词汇和外国人名,若全部译为中文,反而不利于读者日后进一步阅读文献和学习,因此,本书对涉及的一些主要通识词汇和人物保持外文名。从广度上看,书中讨论了五种场景下集成多标签学习方法,即加权堆叠选择集成的传统多标签学习、流形子空间集成的不完全多标签学习、不同表征网络集成的极端多标签学习、自蒸馏集成的长尾多标签学习和多模态知识集成的开放词多标签学习,内容丰富。从深度上看,书中给出集成学习、深度学习相关原理、算法和应用实例。

本书共8章。第1章介绍当前集成学习和多标签学习面临的挑战,以及集成多标签学习可以作为一个有效的解决方案; 第2章介绍集成学习、多标签学习相关基础理论,包括集成学习框架和主流的传统多标签学习方法; 第3~7章分别详细介绍五种场景下的集成多标签学习方法,即加权堆叠选择集成的传统多标签学习、流形子空间集成的不完全多标签学习、不同表征网络集成的极端多标签学习、自蒸馏集成的长尾多标签学习和多模态知识集成的开放词多标签学习; 第8章总结全书,并展望集成多标签学习的未来发展。

本书可供高等院校计算机科学、人工智能等相关专业的师生阅读,也可供大数据和人工智能应用程序的开发人员、广大科技工作者和研究人员参考。


作者2024年12月