前言








计算机视觉是人工智能的重要分支领域,随着人工智能的飞速发展,计算机视觉在人们生活中的应用也越来越广泛,从教育、安防、交通到智能家居等方方面面都有应用。然而,在实际应用中,我们需要了解如何将计算机视觉技术应用到具体场景中,这也是本书的重点所在。

本书不仅涵盖了计算机视觉领域的核心技术,而且着重介绍了计算机视觉在实际应用中的具体实现。在深度学习框架的选择上,本书采用百度开源的PaddlePaddle深度学习框架(飞桨),其作为一个易用、高效、灵活、可扩展的深度学习框架,能够帮助读者更好地理解计算机视觉技术的应用和实现。


本书共6章。第1章介绍Python基础。通过九九乘法表、随机数生成与排序等6个Python实践,帮助初学者快速掌握Python的相关语法,为后续章节的学习做铺垫。


第2章介绍图像分类。图像分类是计算机视觉领域的经典任务,是指给定输入图像,需要输出预测的图像所属类别。本章主要基于不同的分类模型,如VGG、ResNet,并在不同的数据集上完成分类任务。

第3章介绍目标检测。目标检测指需要找到图像中所有感兴趣的目标,并输出它们的类别和位置,这也是计算机视觉领域的核心任务。本章需要基于不同的检测模型,例如Faster RCNN以及YOLOV3,完成瓷砖瑕疵和昆虫等检测。

第4章介绍图像分割。图像分割是图像理解的重要组成部分,需要在像素级上完成图像分类的任务。通过学习本章,读者将了解典型的分割模型在不同分割任务上的效果。

第5章介绍视频分类。视频分类相比于图像分类更为复杂,是指给定一个视频片段,根据其中包含的内容进行分类。本章将了解3个不同的视频分类模型。

第6章介绍图像生成。图像生成指从现有的数据集中生成新图像的任务。本章主要介绍通过不同的生成对抗模型来完成衣服生成、人脸图像生成以及图像风格迁移等任务。

本书从实践出发,提供了大量的代码示例和案例研究,能够帮助读者深入理解计算机视觉的核心概念和技术,并快速上手实际应用。希望通过阅读本书,读者能够了解并掌握计算机视觉的基本技能并提高在实践中的能力。在编写本书的过程中,感谢PaddlePaddle社区,免费的GPU算力、完善的API文档以及丰富的产研实践为广大读者提供了极其便利的开发实践环境。还要感谢读者的支持和反馈,期待您在学习本书的过程中有所收获。

扫码即可下载本书的源代码及数据:






编者
2023年8月