前言


自从AI绘图技术面世以来,激发了很多人进行艺术创作的兴趣,创作绘画曾经是一件有很高门槛的活动,然而现在,只要输入一句描述文本,计算机就能根据文本的内容生成相应的绘画作品,并且在作画的细节上表现得十分优秀,甚至能超越很多职业画师,让画师这一职业的发展前景看起来岌岌可危。
初见这种技术时,大多数人会被它的表现所震撼,笔者也不例外,这里的AI绘图指的是以Diffusion模型为代表的以文生图模型。事实上图像生成并不是很新的技术,在Diffusion模型之前就已经有自动编码(Auto Encoder,AE)、生成对抗网络(Generative Adversarial Network,GAN)等一系列模型,并且也都取得了很好的成绩,之所以还是会被震撼到,是因为Diffusion模型把图像生成这件事情一下子提高到了过去无法企及的高度,尤其是作画的质量,是过去的模型无法相比的,Diffusion模型生成的图像很清晰,还能使用文本控制图像的内容,过去的模型想生成一张清晰的图片,难度就已经不小了,更不用说再去控制图像的内容了。
Diffusion模型优秀的地方还在于生成内容的丰富性上,无论描述文本的内容是自然风景、古典建筑、人物肖像、动漫卡通,还是可爱的小动物,都可以很自然地生成,这体现了Diffusion模型巨大的知识量,说明它见过的图像和文本是海量的,这和过去的传统模型拉开了差距。自从BERT到ChatGPT以来,大模型的思想被不断强化,Diffusion模型也符合大模型思想。
作为技术人员,可能会对Diffusion模型的底层原理非常感兴趣,本书将从Diffusion模型的高层API开始,逐渐深入地讲解Diffusion模型的底层原理。Diffusion模型中借鉴了一些历史模型的经验,在接触到这些知识时本书会作为单独章节进行讲解,以帮助读者构建完整的知识体系。
本书中所有的实战任务都配有完整的可执行代码,本书和书中代码笔者都尽量以简单、浅显的语言书写,尽量避免无意义的内容,以帮助读者快速、准确地理解本书中的知识。
通过本书的学习,读者能够快速地掌握Diffusion模型的构建、训练、测试方法,并且能够独立研发属于自己的Diffusion绘图模型。