前言 作为人工智能领域的重要分支,计算机视觉旨在赋予计算机类似人类视觉的感知和理解能力。其技术已在多个领域展示出巨大潜力,并广泛应用于各方面,如图像识别、目标检测、人脸识别以及自动驾驶等。 本书以计算机视觉的基础技术为起点,以五大核心任务为主线,对其基础知识进行了系统梳理与组织,并按照主要任务的顺序组织课程内容,使学习更为便捷。通过学习本教材,读者将提升工程开发能力。 全书共分15章,以计算机视觉任务为主线,内容由浅入深展开,结构清晰,易于理解。第1章介绍线性滤波器,包括卷积的基础理论及其在图像去噪中的典型应用。第2章探讨图像边缘提取技术,涉及图像边缘与图像求导、经典的Canny边缘检测算法以及3种拟合技术。第3章着眼纹理表示,介绍图像纹理的概念、图像纹理的表示和LeungMalik卷积核组。第4章为角点特征提取,分为局部特征和角点检测两部分,详细讲述了Harris角点检测算法。第5章关注图像的尺度不变特征,介绍尺度不变理论基础,以及SIFT和ORB特征提取方法。第6章介绍图像分类任务的定义与难点,探讨了基于机器学习与词袋模型的图像分类方法。第7章聚焦目标检测技术,以人脸检测和行人检测为例,介绍目标检测技术中的两个经典算法——AdaBoost算法和HOG算法。第8章介绍图像分割任务,包括基于像素聚类的图像分割方法以及基于图的图像分割方法。第9章深入探讨目标跟踪的核心技术和算法,包括基于光流、卡尔曼滤波以及粒子滤波的方法。第10章详细介绍摄像机的数学模型,包括其内部参数和外部参数的概念,它们是理解和应用摄像机几何理论的基础。第11章深入讨论摄像机的参数标定问题,介绍了内、外参数的求解及径向畸变参数的估计方法。第12章介绍单视图几何知识,涵盖射影几何、消影点和消影线等基础概念,并讨论了单视图重构的基本前提和技术。第13章聚焦三维重建的基本方法和极几何,介绍了三角化、极几何、基础矩阵和单应矩阵的基本概念与求解方法,它们是进行精确三维定位和建模的前提。第14章探讨双目立体视觉技术,包括平行视图的极几何关系、平行视图校正以及基于相关性匹配的视差估计方法。最后,第15章研究运动恢复结构问题及其对应的求解算法,完整地呈现了从图像中重建三维场景的过程。 本书具有以下特点: (1) 遵照教指委智能科学与技术和人工智能专业及相关专业的培养目标和培养方案,合理安排计算机视觉知识体系,结合机器学习和智能机器人的先行课程和后续课程组织相关知识点与内容。 (2) 注重理论和实践结合,融入计算机视觉的任务实例,使学生在掌握理论知识的同时提高处理任务过程中分析问题和解决问题的实践动手能力,增强创新意识,理论知识和实践技能得到全面发展。 (3) 每个知识点都包括基础示例,知识内容层层推进,易于接受和掌握。每章都以计算机视觉任务为主线,将知识点有机地串联在一起,便于学习。 (4) 每章习题中提供一定数量的课外实践题目,采用课内外结合的方式,培养学生编程的兴趣,提高其工程实践能力,满足当前社会对开发人员的需求。 (5) 本书提供配套的教学课件、基础案例的源码。 在本书编写过程中,编者参阅了国内外高校的教学与科研成果,也吸取了国内外高等教材的精髓,对这些作者的贡献表示由衷的感谢。同时得到了彭响、赵钊然、董相涛、刘柏川、乔前、张安然、王利玮、宋世鹏等多位同学的帮助,并得到了清华大学出版社的大力支持,在此表示诚挚的感谢。 由于编者水平有限,书中难免有不妥和疏漏之处,恳请各位专家、同仁和读者不吝赐教和批评指正,并与编者讨论。 编者 2025年1月