前言 近年来,一种名为学习分类器系统(Learning Classifier System,LCS,以下简称学习分类器)的机器学习新范式吸引了越来越多的研究者的注意。总的来说,学习分类器基于规则归纳的思想,主要致力于解决分类问题。在学习分类器中,处于中心地位的规则学习单元通常是演化计算中的遗传算法,因此在一些文献中又将其称为基于遗传的机器学习。通过将学习性能指标定义为优化目标函数,学习分类器实质上将作为学习问题的分类任务转化为传统的优化问题进行求解,继而基于遗传算法的全局优化能力确保规则知识表示的假设空间中一定强度的随机化搜索,以期在合理的运算时间内收敛到较优性能的问题解,从而更好地平衡了算法性能与计算效率的矛盾。 遗传算法是现代启发式算法的典型代表之一。这类算法与最优算法不同,并不以求得最优解为目的,而是在一个可以接受的计算代价下得到问题的一个可行解。分布估计算法是近年来被提出并逐步发展起来的一类演化算法。与遗传算法不同,分布估计算法不再使用交叉、变异等来源于生物学的概念,而是将概率模型及其演化作为算法的核心,不同的概率模型和不同的模型演化策略塑造了不同的分布估计算法。基于先进的分布估计算法与学习分类器融合,从而打造优异的学习分类器,也是机器学习领域发展的重要趋势之一。 在实际的学习分类器中,存在以下主要问题: 首先,在基础演化优化方法层面,学习分类器所依赖的分布估计算法仍然面临着遗传漂移与多样性保持、全局搜索和局部搜索平衡、变量之间依赖关系的有效学习等问题;其次,在学习分类器的应用层面,在真实场景中采集的原始数据不可避免地包含冗余乃至噪声的属性信息,这些不相关的特征将对学习分类器算法的学习性能与计算效率造成负面影响;最后,在实际应用中的学习性能方面,学习分类器以显式规则表示目标概念,在监督学习或强化学习机制的基础上,利用演化算法对规则空间进行搜索,从而完成学习任务,规则空间的有效搜索是影响学习分类器性能的关键。针对上述问题,本书分为上、中、下三篇,分别对学习分类器中的重要内容加以介绍。上篇为第1~6章,重点介绍典型的组合优化方法——分布估计算法的最新进展,深入探索了深度改进的分布估计算法,提出了基于共轭先验分布的两层分布估计算法、带有链接学习的量子演化算法和问题规模自适应的基于分解的多目标分布估计算法。中篇为第7~13章,重点介绍学习分类器与特征选择方法,重点对两者的整合研究内容加以介绍,将学习分类器的分类模型构建过程与特征选择的特征子集搜索过程统一集成在基于遗传的机器学习框架下,同时改善了分类算法的预测性能与运行效率。下篇为第14~20章,从提高规则空间的搜索质量出发,着眼于分类问题,介绍了基于分布估计算法的学习分类器。相关成果已经在演化计算领域的权威国际会议 ACM GECCO、IEEE CEC和知名国际期刊Information Sciences、Neurocomputing、Applied Soft Computing等上发表。为了能够系统地呈现学术界和笔者团队近年来在演化学习与智能优化领域学习分类器方面的研究成果,本书梳理了相关工作内容并进行了完整论述。 第2版在第1版的基础上扩展了如下基础性的理论内容。针对在基础演化优化方法层面学习分类器所依赖的分布式估计方法仍然面临着遗传漂移与多样性保持、全局搜索和局部搜索平衡、变量之间的依赖关系的有效学习等问题,探索了深度改进的分布估计算法,提出了基于共轭先验分布的两层分布估计算法(THEDA)、带有链接学习的量子演化算法(QEALL)和问题规模自适应的基于分解的多目标分布估计算法(sMEDA/D)。 笔者的研究团队将继续梳理和归纳总结相关的最新研究成果,以演化学习与智能优化系列学术专著的形式呈献给读者。本书既可以作为演化学习、智能优化等专业方向的研究生教材,也可以作为优化调度、演化学习、智能系统等领域的系统与产品研发的理论方法参考书。本书相关资料(算法、代码、数据集等)可在开源社区下载(下载地址可查阅THUAIR官网或联系作者索取)。由于演化学习领域的学习分类器是一个快速发展的崭新研究领域,限于笔者的学识和知识,书中不足之处在所难免,笔者衷心地希望读者提出宝贵的意见和建议。 本书中介绍的相关研究工作得到国家自然科学基金项目(编号为61673235、61175110、60875073、60575057)的持续资助。在本书编写过程中,清华大学计算机科学与技术系智能技术与系统国家重点实验室陈小飞、黄嘉宇等同学做了大量书稿整理工作。本书内容中也包含了温赟、杨甲东、王勃、袁源等同学在相关研究方向上与笔者持续合作的创新工作成果。笔者感谢各位团队成员的努力。 徐华2024年10月于清华大学