前言








一转眼十年又过去了,十年前在出版本书第3版时,我曾经感慨信息时代的到来,而从那以后的这十年,我们则深刻感受到了智能时代的来临。清华大学出版社的老师告诉我,《模式识别》第2版和第3版到目前已经共印刷了38次,总发行量超过10万册。在我平时的工作中,时常收到采用本教材授课的高校教师的问题和建议,也收到一些读者反馈。我要特别感谢这些老师和读者对本教材长期的支持和关爱,也很高兴看到这本教材为这个蓬勃发展的学科贡献了一份力量。
21世纪的前20年,见证了模式识别、机器学习和人工智能学科的飞速发展。这一点从本教材各个版本使用情况的演化也可见一斑。从边肇祺先生主持编写的《模式识别》第1版到边肇祺、张学工共同编写的《模式识别》第2版,当时的读者主要是直接从事本领域研究的教师、研究生和科技工作者,而《模式识别》第3版的读者已经扩展到各个专业对本领域感兴趣的教师、研究生、本科生和科技工作者。模式识别类的课程最开始是少数院校在自动化系、计算机系等开设的研究生专业课,现在已经成为很多院系的研究生专业基础课,很多学校和院系开始把模式识别和机器学习类课程作为本科生专业必修课和全校性选修课。在我自己这些年的本科生课堂上,选课同学不但来自计算机、自动化、电子、软件等信息类专业,还有大量同学来自数学、物理、生物、医学以及各种工程类、机械类、管理类专业,也有同学来自建筑学院、美术学院和心理学、社会学、语言学等专业。这一方面说明了各专业同学数理基础和计算机基础的普遍提高,另一方面更从一个侧面映射出了这一学科受欢迎的程度。
从学科本身看,最近十年最大的发展当属深度学习和机器学习与人工智能结合产生出的大量成功应用。在十年前编写第3版教材时刚刚显露头角的深度神经网络和在较小范围内研究的概率图模型等,已经成为最受关注的热点。同时,大量机器学习软件平台的出现和发展,也改变了人们以往学习和利用模式识别与机器学习方法的方式。这些日新月异的发展,使我强烈感受到这本教材的内容需要很多更新和补充,但因为其他各种工作太繁忙,早就答应出版社的教材编写计划几次被拖延。2019年底,在与汪小我老师共同准备“模式识别与机器学习”课程时,我邀请汪老师与我共同进行这本书的写作。
2020年初,突如其来的新冠肺炎疫情改变了所有人的生活和工作,也促使每个人更清楚地认识自己对社会和历史的责任。于是,我和汪老师商量决定,与疫情赛跑,在春季学期的远程授课中就采用新版教材的内容,迫使自己在春季学期授课的同时完成本书新版的写作,力争在年内出版。2020年7月19日,我们完成了新版的全部写作,与第3版相比,增加了5章新内容,对原有内容也进行了必要的调整和补充。
对于业内学者来说,“模式识别”与“机器学习”是非常接近和高度相关的概念,但对于尚未学习这些内容的读者,可能会对这两个名词有不同的认识。为了更全面地反映本书的内容范围,我们增加了副标题“模式识别与机器学习”,也据此对很多内容进行了补充和调整。近年来,很多人尤其是产业界和投资界把模式识别和机器学习都放在人工智能的大框架下,因此,我们也在新版第15章专门对“模式识别”“机器学习”“人工智能”三个概念的关系、演化和背后的学术思想进行了讨论。
新版内容的编写得到了很多老师和同学的帮助,尤其是2020年春季学期清华大学自动化系本科生课程“模式识别与机器学习”的助教研究生王昊晨、颜钱明、张威、乔榕,和2019年秋季学期清华大学自动化系研究生英文课程“机器学习”的助教研究生花奎、陈斯杰、马天行、孟秋辰、李嘉骐。在新版的具体内容编写中,第4章隐马尔可夫模型和贝叶斯网络、第10章10.9节的tSNE降维可视化方法、第11章11.8节的一致聚类方法和第12章12.8.2节的实例主要由汪小我负责起草,其中颜钱明帮助计算了10.9节和11.8节的例子; 张威起草了第14章机器学习软件平台的介绍和计算机代码示例; 其他新增章节(第7章、第12章、第15章)和其他章节调整内容均由张学工负责起草,其中王昊晨帮助起草了12.7节生成模型的初稿,第7章采用了《模式识别》第2版中的部分原稿,第12章中采纳了胡越、罗东阳同学之前准备的部分素材。张学工负责了新版的统稿。第12章深度学习的前半部分草稿得到了清华大学自动化系黄高老师的很多建议和指正。马天行、李嘉骐、陈斯杰、孟秋辰、王昊晨、颜钱明、张威、乔榕、张嘉惠等同学帮助对部分书稿进行了文字和公式检查。厦门大学王颖教授对部分公式错误给出了更正。本次主要新增章节草稿在2020年春季清华大学自动化系本科生课程“模式识别与机器学习”中进行了试用。本书的编写也得到了清华大学自动化系古槿、闾海荣、江瑞等老师的帮助,并得到了福州数据技术研究院的大力帮助和支持。
本教材编写得到了清华大学历年来多个教学改革和学科建设项目的支持,教材中涉及的很多科学研究内容,得到了国家自然科学基金创新研究群体项目、杰出青年基金项目和优秀青年基金项目等的支持。



张学工

2020年7月20日

前言


前言






第3版前言




  从本书第2版出版到现在已经又是十年了。在这十年里,我们真切地感受到了信息时代的到来。对信息的处理和分析,已经不仅仅是信息科学家所关心的问题,也不仅仅是信息技术产业所关心的问题,而是为很多学科和很多领域共同关心的问题。作为信息处理与分析的重要方面,模式识别也开始从一个少数人关心的专业,变成一个在工程、经济、金融、医学、生物学、社会学等各个领域都受到关注的学科。
  模式识别学科的发展,可以从笔者所在的清华大学自动化系在模式识别专业教学和教材上的沿革窥见一斑。早在1978年,在已故中科院学部委员常迵教授的领导下,自动化系成立了信号处理与模式识别教研组,后更名为信息处理研究所,1981年获准成立“模式识别与智能系统”学科(当时称“模式识别与智能控制”)的第一个硕士点、博士点。从那时起,边肇祺等教授就开始为研究生开设模式识别课程,后逐渐包括进少部分五年级本科生(当时清华大学本科学制为五年)。20世纪80年代中期,边肇祺、阎平凡、杨存荣、高林、刘松盛和汤之永等老师组成了教材编写小组,开始编写模式识别教材,这就是1988年出版的《模式识别》。该教材的出版,为我国模式识别学科的发展做出了历史性的贡献,被很多高校和科研院所作为教材或参考书。十年以后,模式识别学科的内容有了很多更新和发展,我们成立了由边肇祺、阎平凡、赵南元、张学工和张长水组成的改写小组,由笔者与边肇祺老师共同组织编写了本书的第2版,2000年正式出版。此时的模式识别课程,已经由最初只有十几位研究生参加的小课,发展为由上百名研究生和高年级本科生参加的大课。第2版教材也得到了国内同行的欢迎,9年内已经重印15次。
  随着模式识别学科的日益发展,我们很快认识到,对模式识别课程的需求已经超出了本专业研究生的范围。于是我们将模式识别课程分为两门: 面向研究生的“模式识别”和面向本科生的“模式识别基础”。到今天,本科生“模式识别基础”每年的选课人数也已达到100~150人,除了来自本系的学生,每年还有多位来自其他院系的学生选课。2007年,该课程荣幸地被评为国家精品课程。
  在近几年的教学实践中,我们体会到,原来的教材有些地方不太适应大范围教学的需要,而且近十年来模式识别自身以及它在很多领域中的应用又有了很多新发展。因此,笔者从两年前开始着手编写新版教材。新版教材的出发点是: 一方面,结合当前的最新发展,精炼传统内容,充实新内容,进一步增强实用性,接触学科前沿; 另一方面,在教材的深度和广度上兼顾广大本科生学习的特点和本专业研究生的需求,力求达到使非本专业学生通过本教材能学到足够系统的基本知识,而本专业学生又能以本教材作为其专业研究的重要起点。
  编写新版教材所需要的时间超出了我的预想,很高兴她今天终于能和读者见面了。在此要感谢在本书编写过程中给了我很多帮助的同事和同学们,尤其是: 美国南加州大学的Jasmine X. Zhou教授在2007年给我提供了短期访问机会,使我能够有一段相对完整的时间集中开始本书的写作; 蒋博同学通读了本书三分之二的初稿并做了多处补充; 现在已经分别是电子科技大学和北京大学教师的凡时财、李婷婷同学帮助准备了本书部分素材。我还要感谢清华大学出版社王一玲编辑在本书编写过程中的一贯支持。当然,最重要的,我要感谢参加本书第1版和第2版编写的所有老师,这不但是因为在这一版中仍使用了前两版的一些内容,更是因为,是这些老师们把我带进了模式识别的大门,使我受益至今。
  由于时间仓促和个人水平所限,教材中难免有错误或不足之处,敬请广大同行和读者批评指正,以便在再版时补充和修改。
  在本书最终完稿的时候,我十岁的女儿以极大的兴致看完了我讲“模式识别基础”第一课的录像,并说将来长大了要听我讲课。谨以此书献给我的妻子和女儿。



张学工

2009年11月29日