前言 2018年10月31日,习近平总书记在十九届中央政治局第九次集体学习时深刻指出,人工智能是引领这一轮科技革命和产业变革的战略性技术,具有溢出带动性很强的“头雁”效应。加快发展新一代人工智能是我们赢得全球科技竞争主动权的重要战略抓手,是推动我国科技跨越发展、产业优化升级、生产力整体跃升的重要战略资源。要加强基础理论研究,支持科学家勇闯人工智能科技前沿的“无人区”,努力在人工智能发展方向和理论、方法、工具、系统等方面取得变革性、颠覆性突破,确保我国在人工智能这个重要领域的理论研究走在前面、关键核心技术占领制高点。 2010年以后,人工智能进入全面高速发展期,主要受到三个重要因素驱动: 一是摩尔定律和云计算带来的计算能力提升; 二是互联网等技术广泛应用带来的数据量剧增; 三是深度学习技术的兴起。前两个因素是时代发展所带来的外部牵引,而第三个因素,即深度学习技术,则是此次人工智能技术浪潮本身最核心的内在驱动。在随后的十年时间里,深度学习在各个领域突飞猛进发展。2011年,微软研究院的语音识别研究人员先后采用深度学习技术降低语音识别错误率20%~30%,是该领域当时及其前十多年来最大的突破性进展。2012年,深度学习在斯坦福大学发布的著名图像识别数据库ImageNet上获得重要突破,其识别准确率在2013—2017年逐年攀升,并于2015年超过了人类图像识别的最高水平。2016年,谷歌公司的AlphaGo击败了围棋冠军李世石,成为人工智能史上人机对抗的新巅峰。随后AlphaGo的不同版本相继问世,AlphaGoMaster、AlphaGoZero、AlphaZero不断冲击人类的认知。随着技术不断进展,深度学习的应用场景也从简单理想的实验室环境向复杂的实用场景不断演进。2017年,世界著名人工智能跨国公司OpenAI的DOTA机器人在“一对一”比赛中以2∶0的比分轻松战胜人类职业玩家Dendi; 一年后推出的仿人进阶版OpenAI Five DOTA机器人,在原有的“一对一”对抗赛基础上实现了“五对五”比赛。2019年4月,OpenAI Five决战紫禁之巅,以2∶0的比分战胜DOTA 2世界冠军OG战队。在自然语言处理领域,自2018年起,谷歌公司研究团队相继推出BERT模型、GPT系列模型,在翻译、问答、写作等方面达到惊人的效果。受全球人工智能技术热潮影响,各大科技企业积极抢滩布局,国外以谷歌、元(脸书)、微软、推特等跨国公司为代表,国内以百度、阿里、腾讯和华为等公司为代表,这些公司相继制定人工智能发展系统规划,成立人工智能研发中心,构建新的人工智能生态体系。与此同时,中国、美国、俄罗斯、欧盟、日本等将人工智能上升为国家战略,纷纷制定国家发展规划,大力攻研关键基础技术,推动产业化落地应用,积极培养人工智能人才。因此,系统全面掌握第三次人工智能的核心技术——深度学习的原理和方法,了解该领域的最新成果、前沿进展和发展动态,对于数字经济时代各行各业发展都具有重要意义。 虽然深度学习在其算法技术突破这个内因及强大算力、海量数据这两个外因的双重作用下,获得了前所未有的巨大发展,具备了多层次、分布式、多任务等知识表征与推理决策能力,在部分领域达到或超越了人类水平。但在更多行业和场景中,由于环境复杂多变、标注数据匮乏、数据缺失等现实痛点问题难以克服,使人工智能的深入应用面临极大瓶颈挑战。因此,人工智能真正走向实用,不仅需要从认知机理与建模方法等理论角度提出创新,而且更需要研究任务场景特性、融合领域多元知识,以行业应用中的共性堵点和关键难题为需求牵引技术研究、开展持久探索。长期研究工作实践也启示我们,把复杂繁乱的应用环境纳入深度学习技术的发展框架中,科学地简化问题、理性地处理复杂应用环境是深度学习实用化的基础。 《实用深度学习基础》就是在这样的背景下成书的,称之为基础,因其涵盖了一些基本理论、概念和方法; 称之为实用,因其力图将高级深度学习技术从实验室推向行业深入应用,按照实际问题去整合内容。 全书分为3部分共15章。第1章人工智能技术概览,介绍人工智能的基本概念和原理,人工智能的发展历程,以及人工智能的学术流派和未来发展。第1部分: 机器学习与深度学习基础(第2~4章)。第2章机器学习理论基础,详细阐述机器学习的基本定义、组成和分类,并且给出机器学习的可行性学习理论; 第3章深度学习基础,给出深度神经网络的基本定义、组成和后向传播优化算法; 第4章深度神经网络优化技巧,介绍深度学习网络优化学习的基本过程,给出激活函数选择、优化算法和测试集性能优化方法。第2部分: 经典深度学习网络与关键技术(第5~8章)。第5章讨论深度学习领域的一个典型神经网络——卷积神经网络,介绍其基本原理、组成及其与前向全连接网络的关系,并给出近年来典型网络的结构组成; 第6章讨论深度学习领域的另外一个典型神经网络——循环神经网络,分析其原理和组成,并给出循环神经网络中的新型改进网络; 第7章深度学习的区分性训练准则,介绍典型的最大互信息、最小音素错误率、状态级最小贝叶斯风险等准则,并通过实例分析其效果; 第8章讨论序列到序列模型方法,主要包括序列到序列模型定义与构成、连续时序分类准则、注意力机制、Transformer模型、BERT模型与GPT模型、新型序列到序列模型等。第3部分: 实用高级深度学习技术(第9~15章)。第9章自编码器,介绍自编码器的通用框架以及几种重要的自编码器方法,包括正则自编码器、变分自编码器等,然后分析自编码器改进算法,最后介绍对抗自编码器; 第10章讨论深度学习领域重要新技术之一——迁移学习,主要介绍迁移学习的定义和典型方法,特征迁移学习和模型迁移学习,最后给出迁移学习前沿技术发展; 第11章讨论深度学习领域重要新技术之二——终身学习,介绍终身学习的定义、原理和主要方法,并给出一些典型应用; 第12章讨论深度学习领域重要新技术之三——生成对抗网络,介绍生成式对抗网络的定义、原理和主要方法,并给出一些典型应用; 第13章讨论自主迭代学习的技术——深度强化学习,首先给出强化学习的基本定义和数学模型,然后介绍三种经典的强化学习方法,包括值函数、策略函数、ActorCritic方法,最后给出强化学习技术的新进展; 第14章元学习,在元学习定义、组成和主要分类基础上,给出三种重要元学习方法,即模型无关元学习方法、自适应梯度更新规则元学习方法和度量元学习方法等; 第15章自监督学习,在自监督定义、原理和分类的基础上,首先介绍对比式自监督学习的各类方法,然后介绍自监督表示学习方法,重点阐述wav2vec、HuBERT等最新方法的原理与应用,最后对自监督学习的科学问题进行总结提升。本书由屈丹、张文林、杨绪魁、牛铜、闫红刚、邱泽宇、郝朝龙编写。其中,第1、3、4章由屈丹编写,第2章由闫红刚编写,第5章由牛铜、郝朝龙编写,第6、12、13章由张文林编写,第7章由牛铜编写,第8章由邱泽宇、屈丹编写,第9、10、11、15章由杨绪魁编写,第14章由屈丹、郝朝龙编写,全书由屈丹、郝朝龙负责审校和统稿。 作者团队多年来一直从事人工智能与机器学习、音频智能感知与语言认知领域的教学、科研和工程开发工作,深深体会到人工智能技术的巨大发展潜力和应用场景。近年来,作者团队承担多项人工智能领域相关方向的国家“863”课题、国家自然科学基金课题、省部级重点课题,取得了多项研究成果,这些都为本书提供了有力的理论支撑。本书是在“深度学习”课程讲义的基础上,结合多年教学经验和实验室相关科研成果,并参考相关文献资料编写而成的。 本书的编写有幸得到了中国工程院原副院长陈左宁院士的指导与帮助,陈院士高屋建瓴、洞察深刻,启示我们瞄准当前人工智能行业的痛点问题深入研究,她的全局视野和前瞻思维对本书的科学定位起着至关重要的作用。本书的编写也得到战略支援部队信息工程大学各级领导的关心和支持,得到了国内外同行学者的支持和帮助,和很多著名专家进行了有益的交流、研讨,特别是还借鉴了林轩田教授和李宏毅教授网上授课的一些思想,这些都使作者感到受益匪浅。他们的卓越工作与见解提升了本书的理论价值和可用性,在此向他们表示深切感谢。 感谢战略支援部队信息工程大学信息系统工程学院人工智能方向毕业和在读的博硕士研究生,他们是秦楚雄、李真、司念文、常禾雨、杨瑞鹏、刘佳文、李璐君、张昊、陈雅淇、彭思思、郭晓波、袁哲菲、李伟浩、张雅欣、胡恒博、刘雪鹏、唐君、刘桐彤、李宜亭、陈紫龙、李嘉欣、万玉宪、柳聪、魏紫薇、于敏、郑亚杰、杨旭、焦啸林等同学,他们结合自己研究课题开展的实用性研究为人工智能的行业应用提供了颇有见地的见解,也为本书打下了坚实的理论基础,他们卓有成效的工作,使得本书言之有理、言之有物。 最后特别感谢国家自然科学基金委员会“低资源连续语音识别中的集外词处理技术”项目(批准号: 61673395)、“基于元学习的少样本低资源连续语音识别技术”项目(批准号: 62171470)和军队“端到端语音直接听译技术”项目的资助支持。 从历史发展角度来看,在今后很长一段时间里,人工智能技术必将持续快速发展,推动全社会各领域持续变革进步。虽然很难预期到那时深度学习是否仍然是驱动人工智能的核心,但我们相信,在实践中大放异彩的深度学习技术,其基本思想和技术范式一定可以为人工智能的长远发展提供宝贵的思想借鉴。我们也期望,本书能够成为这条路上的“铺路石”,能让更多人站到我们的肩膀上,看得更高,走得更远,创造人工智能领域新的灿烂辉煌。 屈丹 2022年6月于战略支援部队信息工程大学