第 1章走进 Stable Diffusion的世界 001


走进 Stable Diffusion的世界 


Stable Di.usion是一款在 2022年发布的深度学习模型,它专注于将文本描述转化为详细的图像。其功能多样,不仅限于图像生成,还能应用于内补绘制、外补绘制等任务,甚至在特定提示词(英语)的引导下实现图生图的转换与翻译。据维基百科介绍, Stable Di.usion主要聚焦于“文本到图像”的深度学习应用,即广为人知的“文生图”领域。用户只需要输入文本提示词( text prompt),该模型便能生成与之相匹配的图像,展现了强大的图像生成能力。 
Stable Di.usion的魅力在于其作为一种强大的文本到图像生成模型,为用户提供了前所未有的创意表达途径和视觉创作的诸多可能性。 
1.高度的灵活性与创意性 
Stable Di.usion允许用户通过简单的文本描述生成与之相对应的图像。这种从抽象语言到具体视觉内容的转换过程极大地激发了用户的创造力和想象力,使得每个人都可以成为自己视觉故事的讲述者。图 1-1为 Stable Di.usion生成的图像。

图 1-1 
2.高质量的图像输出
经过训练的 Stable Di.usion模型能够生成细节丰富、风格多样的高质量图像。这些图像在细节处理、色彩搭配以及整体构图上都达到了令人惊叹的水平,为用户提供了接近甚至超越专业摄影师和画家的作品体验,如图 1-2所示。 
3.广泛的应用场景 
Stable Di.usion的应用领域极为广泛,从艺术创作、广告设计到游戏开发、虚拟现实等,都能见到它的身影。它不仅可以为专业人士提供高效的创作工具,也能让普通用户轻松实现自己的创意想法,降低了视觉创作的门槛,如图 1-3所示。

图 1-2 图 1-3 
4.持续的技术进步
随着人工智能技术的不断发展,Stable Di.usion模型也在不断优化和升级。新的算法、更强大的计算能力以及更丰富的数据集使得 Stable Di.usion能够生成更加逼真、多样化的图像,从而满足用户日益增长的需求。图 1-4为 Stable Di.usion模型生成的图像。

图 1-4 
5.促进艺术交流与融合 
Stable Di.usion打破了传统艺术创作方式的界限,使得不同文化、不同背景的人都能通过共同的语言——文字来交流和理解彼此的艺术理念。这种跨界的艺术交流不仅促进了艺术的多元化发展,也推动了文化的融合与创新。图 1-5为 Stable Di.usion生成的建筑图像。
总之,Stable Di.usion以其独特的魅力吸引了全球范围内用户的关注和喜爱,成为当下热门的文本到图像生成技术之一。
本章深入剖析了 Midjourney与 Stable Di.usion这两款前沿软件的优势与局限,旨在引领读者全面理解它们在不同应用场景下的独特价值。本章不仅详尽地阐述了这两款软件的核心特性与差异,还贴心地附上了详尽的安装指南与注册流程教学,旨在帮助读者根据个人需求与实际情况做出明智的软件选择,并顺利踏上后续的学习与实践之旅。 
1.1Midjourney和 Stable Diffusion的优缺点对比
当前市场上存在两款备受人们推崇且广泛应用于工作的主流 AI绘画软件,一款是 Midjourney,另一款是 Stable Di.usion。它们虽然都是基于文本提示生成 AI图像的工具,但是在功能上各有千秋,各自具有独特的优势与局限。这两款软件为用户提供了不同的创作途径,以适应用户多样化的需求与偏好。 
1.1.1Midjourney的优势 
Midjourney是一款基于 Disco Di.usion平台构建的创新 AI绘画工具,能够将文本描述转化为生动的图像。它不仅擅长创作视觉冲击力强的艺术作品,还作为一个国际化的 AI绘画平台。特别值得一提的是,它能识别并响应中文输入,确保了广泛的用户适用性。Midjourney生成的图像的版权直接归属于创作者,为艺术创作提供了坚实的法律保障。Midjourney公司已全面优化模型开发、训练、调整及用户界面设计,让用户享受“开箱即用”的便捷体验,无须高端计算机配置即可轻松上手。此外,Midjourney的图像生成速度极快,极大地提升了用户的创作效率,如图 1-6所示。

图 1-5

图 1-6 

1.1.2Midjourney的劣势 
Midjourney以其高度的随机性著称,但在可控性方面相对较弱,仅提供数量有限的模型变体供用户选择。尽管用户能够调整如纵横比等参数,并选择不同的算法生成版本,但与 Stable Di.usion相比,Midjourney在变化和选项的丰富度上略显不足。此外,Midjourney设置了一定的内容限制,包括政治、血腥、敏感人体部位、毒品、侮辱性词汇等,违反这些规定可能导致账号被封禁。作为一个开放的社区平台,Midjourney上的图像一旦生成即可被他人访问,除非用户选择开通每月 60美元(费用可能因促销、折扣等活动有所变动)的会员服务并激活隐身模式,以保护自己的作品不被公开浏览。鉴于 Midjourney是一款成熟的商业产品,它采用付费模式,更适合那些追求快速上手且不介意支付费用的用户群体,如图 1-7所示。

图 1-7 

1.1.3Stable Diffusion的优势 
Stable Di.usion作为一款开源模型,鼓励全球用户共同参与其创新与发展,因此存在众多在线及离线版本供大家选择。离线版本完全免费,且用户可根据个人需求自由挑选模型,展现出极强的可扩展性。Stable Di.usion在图像定制方面尤为出色,它允许用户精细地调整图像至每个像素级别,同时创作者对 AI遵循提示的严格程度拥有完全控制权,包括设置种子值、挑选采样器等,以引导 AI引擎生成预期效果。此外,Stable Di.usion平台提供了数千种艺术模型,能够基于用户提示生成多样化的艺术风格,极大地丰富了创作空间。 
Stable Di.usion的可定制化程度较高,得益于丰富的插件生态,这些插件为用户提供了更多控制图像构图、姿势等细节的可能性。对于注重隐私保护的用户而言,Stable Di.usion的本地部署模式尤为吸引人,因为它无须联网即可使用,且默认情况下不对外公开图像内容,除非创作者主动分享,否则作品将安全地保存在个人计算机上。 

1.1.4Stable Diffusion的劣势 
Stable Di.usion在数据模型的应用上较为灵活,但这也意味着许多模型需要用户自行训


( 5)双击以启动 run. bat,在第一次启动时它将自动下载大量文件,如图 1-12所示。

图 1-12
( 6)正确下载并安装所有内容后,将会看到消息“Running on local URL: http://127.0. 
0.1:7860”,如图 1-13所示。

图 1-13
( 7)在浏览器中打开链接,将显示 Web UI界面,如图 1-14所示。注意在下载过程中要全程保持网络畅通。

图 1-14 

1.2.2添加所需的 AI模型
在完成 Stable Di.usion项目的本地部署后,为了确保图像正常生成,用户至少需要添加一






Stable Diffusion绘图基本参数


本章为 AI绘画入门的必学内容,通过学习 Stable Di.usion Web UI的相关界面知识,掌握基础描述语参数和反推功能,创作者便可以在本章的实操中生成属于自己的第一张 AI图像。 
2.1认识 Stable Diffusion Web UI 
Stable Di.usion的功能十分强大,但掌握 AI绘画需要从认识最基础的界面开始,因为对界面的掌握程度直接影响了使用体验和后续灵活运用的效果。在学完本节之后,读者会发现上手操作其实并不难。
在完成 Stable Di.usion的本地部署,并且至少配置了一个大模型 Dreamboot之后,便可以开始对 Web UI的界面展开基础层面的认识了。 
1. 启动界面
启动界面可以被划分为 4个主要区域,即模型区、功能区、参数区和出图区,每个区域都有其特定的用途和功能,以满足用户的不同需求,如图 2-1所示。

图 2-1 
.	模型区:模型区的主要功能是让用户能够切换所需的模型。用户可以从网络下载所需的 Safetensors、CKPT、PT模型文件,并将其放置在 \modes\Stable-di.usion目录下。单击模型区的刷新箭头后,用户可以在此选择并加载新的模型。 

.	功能区:功能区提供了一系列的功能选项,用户可以根据需要进行选择。在安装完对应的插件后,重新加载 UI界面将会在功能区添加对应插件的快捷入口。

.	参数区:参数区提供了一系列可调整的参数设置,这些设置会根据用户选择的功能模块变化。例如,在使用文生图模块时,用户可以指定要使用的迭代次数、掩膜概率和图像尺寸等参数。 

.	出图区:出图区是供用户查看 AI绘制最终结果的地方。在这个区域,用户还可以看到用于绘制图像的相关参数的各类信息。 


2.文生图页面
在文生图页面,用户可以输入文本、选择模型,并配置一些其他参数,以此来生成图像。文本是生成图像的基础,必须提供。用户可以选择预定义的模型,或者上传自己的模型。此外,用户还可以选择一些其他参数,如批处理大小、生成的图像尺寸等。接下来针对图 2-2中的一些参数进行详细说明。

图 2-2 
.	采样迭代步数:此参数用于指定图像生成的迭代次数。较多的迭代次数可能会让生成的图像质量更好,但也需要更长的时间来完成。 

.	采样方法:此参数选择用于生成图像的采样方法。在默认情况下,该参数设置为 Euler a,但也可以选择 DPM++这些新加入的系列选项,这将使所生成图像的细节更丰富。 

.	面部修复:如果绘制面部图像,可以选择此选项。当头像是近角时,选择此选项可能会导致过度拟合和图像虚化的现象。相较而言,当头像是远角时选择此选项更为适合。 

.	平铺 /分块:用于生成一个可以平铺的图像。 

.	高清修复:此选项使用一种两步式的过程生成图像,首先以较小的分辨率创建图像,然后在不改变构图的情况下改进其中的细节。 

.	宽度、高度:这两个参数用于指定所生成图像的宽度和高度,较大的宽度和高度需要更多的显存以及计算资源。 

.	生成批次:此参数用于指定模型针对每一幅要生成的图像所能运行的最大迭代次数,增加其值,模型便可以多次生成图像,但生成的时间也会更长。 

.	每批数量:此参数用于指定一次可以生成的最大图像数量。 

.	提示词相关性:此参数可以调整图像与提示符的一致程度。增大其值,将使图像更接近提示内容,但过高会使图像的色彩过于饱和。此参数的值越小,AI绘图的自主发挥

空间越大,越有可能产生有创意的结果(默认为 7)。 

.	随机种子:此参数可以指定一个随机种子,用于初始化图像生成过程。相同的种子值每次都会产生相同的图像集,这对于保障图像生成的再现性和一致性很有用。如果将种子值保留为 -1,则每次运行“文生图”时将生成一个随机种子。 


3. 图生图页面
在图生图页面,允许用户使用 Stable Di.usion生成与原图像的构图色彩相似的图像,或者指定一部分内容进行变换。与文生图功能相比,图生图功能新增了图像放置区域和“重绘幅度”参数设置,如图 2-3所示。

图 2-3
接下来针对图 2-4中的相关参数进行说明。

图 2-4 
.	缩放模式:此参数主要用于设置在调整图像尺寸后以何种模式保证图像的输出效果,可选项包括拉伸、裁剪、填充和直接缩放。 

.	重绘幅度:此参数决定图像模仿的自由度,数值越高,越能自由发挥;数值越低,生成的图像与参考图像越接近。通常,当数值小于 0.3时,基本上就是在原图上加一个滤镜效果。 

.	绘图:允许使用 Stable Di.usion中的画笔在图像中进行绘制。如果想在图像的某

个具体位置增添物体,可以先通过涂鸦的方式画出其大概形状,再配合提示词辅助生成。 

.	局部重绘:允许使用 Stable Di.usion对图像中被手工遮罩的部分进行重新绘制。如果用户找到了一张整体尚可、细节较差的图像,可以单击这个按钮开始局部重绘。 Stable Di.usion会自动生成一个遮罩层,此时可以用鼠标在图像上涂抹需要修复的区域。单击“生成”按钮, Stable Di.usion会根据遮罩层和原图生成一个新的图像,并显示在右侧。值得一提的是,官方提供了基于 1.5版本的专门的 In-paint 修复模型。 

.	局部重绘(手涂蒙版):允许使用 Stable Di.usion中的画笔在图像上进行重新绘制。该功能结合了局部重绘以及涂鸦功能,可以通过调整画笔的颜色以及形状更好地对图像进行局部更改。与局部重绘相比,该功能会参考画出的蒙版形状进行相应操作;与涂鸦功能相比,该功能会对原图进行重绘更改,而涂鸦只会在原图上增添物品。 

.	局部重绘(上传蒙版):允许在 Stable Di.usion中手动上传图像以及蒙版。该功能会对蒙版内或蒙版外的图像进行重绘,常用于较为精细的修改。 



2.2Stable Diffusion描述语参数详解
在大概了解了 Stable Di.usion的基础界面后,便可以开始尝试生成第一张 AI 绘画作品。接下来将通过实例从文生图、图生图以及如何规范地写 prompt来控制图像,提升图像的细节,从而帮助读者迅速了解 Stable Di.usion的作图流程。 
2.2.1尝试通过文本操控图像
首先通过最基础的文生图来制作图像,这里使用一款二次元赛璐璐风格的大模型 Counterfeit-V3.0以及对应的 VAE进行演示,大家可以根据已有的下载模型进行选择,具体操作步骤如下。
( 1)将提示词输入文生图( text-to-image generation)的正向提示词框中,此时为了强调所生成图像的质量,通常会先列出一些与质量相关的关键词,如 best quality、 masterpiece、 Highly detailed、 absurdres等,这些词有助于引导模型生成品质更高的作品。接着根据想要描述的主体内容进一步完善提示词,例如想生成一个身着水手服的粉色长发女孩的图像,则需要在提示词中添加 1girl、 sailor_shirt、 long hair、 pink hair这类具体描述。与 Midjourney等采用较为连续自然语言文本的方式不同, Stable Di.usion模型更倾向于将自然语言拆解为独立的词组或短语。遵循这样的规则,正向提示词就可以按照上述方式编写完成,如图 2-5所示。这样的输入方式有助于模型更精确地理解并生成符合预期的图像。

图 2-5
( 2)单击“生成”按钮,在生成图像的区域会根据输入的提示词不断演化,进行去噪操

作。生成图像的时间与显卡的配置有关,显卡的性能越高,出图的速度越快。当进度条完成后,图像会显示在出图区域,用户可以通过单击进行放大查看,同时图像会自动保存在本地。单击界面下方的黄色文件夹图标,即可查看以前生成的所有图像,如图 2-6所示。
( 3)加入负向提示词去除画面中不想要的物体或改善画面的质量,例如加入 badhandv4、 EasyNegative、 ng_deepnegative_ v1_75t、 rev2-badprompt、 verybadimagenegative_ v1.3、 negative_hand-neg、 bad-picture-chill-75v等,如图 2-7所示。这些负向提示词有助于精确地控制图像的生成过程,避免生成不必要的元素以提高图像的整体质量。
图 2-6


( 4)此时可以观察到画面中人物的脸部细节有了显著提升,但仍存在一些不合理之处,例如头发有多处未能自然连接,如图 2-8所示。由于 Stable Di.usion本质上是基于扩散模型的,它并不直接理解图像的内容或绘制方式,而是通过反向扩散过程直接生成图像,所以对于大多数模型而言,这些不合理之处是难以避免的。当然,对于这些细节问题,大家不必过于纠结。

( 5)如果想在保持同一张图的基础上获得更高精度的图像,可以先单击绿色小图标保存之前图像的种子,以便复现上一张图像。然后单击“高分辨率修复( Hires. .x)”


图 2-8 
选项,并在放大算法中选择 R-ESRGAN 4x + Anime6B(该算法对动漫图像的修复效果较佳)。接着设置“重绘幅度”为 0.2,注意幅度越大,所生成图像与原图的区别也会越大。在完成设置后,单击“生成”按钮等待图像生成。需要注意的是,高分辨率修复会显著减慢生成速度,并对显卡的算力提出更高要求。这一步骤的操作示意如图 2-9所示,生成的效果如图 2-10所示。

图 2-9 图 2-10
此时可以直观地观察到,图像的整体细节以及分辨率都有了显著提升,图像的像素也增加到了原先的两倍。在图像的下方还会展示当前图像的正向提示词、负向提示词、尺寸、种子等附加信息,这些信息会一并包含在图像的信息中,如图 2-11所示。

图 2-11 
创作者同样可以使用 PNG图像信息来展示图像详情。通过单击“发送到文生图”或“发送到图生图”按钮,可以快速复现并生成该图像,如图 2-12所示。


图 2-13 
通过高清放大技术,可以在保留原图画面风格的基础上为图像增添更多细节,而不仅仅是简单地提升分辨率。若希望原图保持原有风貌,避免大幅度改动,则应谨慎设置重绘幅度,不宜过大。最终生成的动漫女孩图像效果如图 2-13所示。 

2.2.2应用图生图功能
下面尝试一下图生图的功能,具体操作步骤如下。
(1)与文生图界面相比,图生图界面增加了一个专门用于放置图像的区域。这一界面在生成图像时,除了会参考输入的文本内容外,还会受到所放入参照图像的影响,使得生成的图像更加贴合指定的主题或风格,如图 2-14所示。

图 2-14
(2)尝试将刚才生成的动漫女孩的眼睛从蓝色变为黑色。首先将刚才生成的图像放入选框中,保持其他参数不变,仅在正向提示词框中添加 black eyes,然后单击“生成”按钮,如图 2-15所示。

(3)生成的图像与原图在构图上保持相似,同时也体现了在正向提示词框中新加入的 black eyes。然而,在许多细节上,新图像与原图相比有了显著变化。这是因为下方默认的重绘幅度设置为 0.75,重绘幅度越大,与原图的差异就越明显,AI自由创作的空间也就越大。如图 2-16所示,新图像在保留原图基本特征的同时融入了更多的创意和变化。



图 2-15

图 2-16
(4)如果只想改变眼睛的颜色,希望图像的其他部分保持原样,那么可以使用图生图的一个功能——局部重绘。这个功能允许用户针对图像的特定区域进行编辑,而不会影响其他部分,如图 2-17所示。

(5)若想让刚才图像中的人物闭上眼睛,可以先将图像放入选框中,然后使用右侧的画笔工具调整其大小,接着在需要更改的部分(眼睛区域)绘制一个蒙版,这样之后生成的内容将仅针对所绘制蒙版的内部进行更改。随后在提示词中加入 closed eyes,并再次单击“生成”按钮,如图 2-18和图 2-19所示。



图 2-17 图 2-18

图 2-19
(6)最终生成的图像中,人物仅闭上了双眼,其他区域并未发生任何改变,如图 2-20所示。

( 7)通过刚才的操作,读者已经大致了解了局部重绘的用法。如果想给这张图像再添加一些元素,如 gold earrings(金色的耳坠),可以先将这个描述加入正向提示词中,然后使用图生图的另一个功能区域——涂鸦重绘来实现更具体的创作意图。

( 8)进入“涂鸦重绘”页面,单击右上角的调色板图标,然后吸取或选择想要的颜色。接下来就像使用局部重绘一样,用画笔画出希望更改的区域。在完成绘制后单击“生成”按钮,即可看到效果,如图 2-21和图 2-22所示。



图 2-20 图 2-21 图 2-22

( 9)与单纯的局部重绘相比,涂鸦重绘功能加强了对颜色的控制。在使用局部重绘时,如果颜色效果始终无法达到理想状态,可以尝试使用涂鸦重绘进行更精确的调整。最终的效果如图 2-23所示。 

2.2.3基本提示词写法
目前, AI制图主要依赖于文本来决定生成的图像,故提示词的恰当性对最终图像的质量和效果具有显著影响,因此编写优质、规范的提示词显得尤为重要。这里介绍一种有效的语序结构,即采用 “引导词 +焦点 +环境( +修饰词)”的方式来书写提示词。
引导词在 AI制图中扮演着指南针的角色,它引领着创作者的创作方向。引导词可以细分为三个子部分,即基础引导词、风格词和效果词。基础引导词如同创作者的目标,它明确了创作者所追求的质量标准,如“顶级作品”或“最高品质”。风格词则是创作者手中的工具,帮助创作者选择适合的艺术风格,如“素描”“油画”或“浮雕”。效果词则如同创作者的调色板,允许创作者挑选合适的光效,如“优秀照明”“镜头光晕”或“景深”,以增添图像的视觉效果。
焦点在 AI制图中如同画布上的主角,可以是人物、建筑或景物等。为了让主角更加栩栩如生,创作者需要对其进行详尽的描述。例如,若主角为人物,则可能需要描绘其面部特征、发型、身材、穿着及姿态等细节。在没有明确角色时,创作者可以转而描述环境中的关键元

图 2-23 
素,如壮观的瀑布( waterfall)、盛开的向日葵( sun.ower)、古老的时钟( clock)等,以构建丰富的场景氛围。
环境在 AI制图中扮演着舞台的角色,它是主角展现魅力的必要背景。若缺少环境描述,则容易生成单调的纯色背景或与效果标签相关的简单背景,同时焦点元素也会显得突兀而庞大。环境词汇能够构建出围绕焦点、充斥整个画面的生动场景,如繁茂葱郁的森林( forest)、绚烂多彩的彩虹( rainbow)、温暖明媚的阳光( sunlight)、清澈宁静的湖泊( lake),以及色彩斑斓的玻璃( colored glass)等,为图像增添丰富的层次和氛围。
修饰词在功能上常与效果词相似,用于增添场景的细节和丰富度,例如彩虹( rainbow)、闪电( lightning)、流星( meteor)等自然元素。需要注意的是,如果焦点描述过于简略,而修饰词被放置在引导词的末尾作为效果词使用,可能会导致场景的描述过于突出,从而削弱了焦点的存在感,使得整个图像显得场景权重过大、焦点不够突出。
在生成艺术图像的过程中,权重控制扮演着至关重要的角色,它决定了 AI是否会对期望的元素给予足够的重视。调整提示语在咒语(即输入指令)中的位置是最基本的权重控制方法之一,通常位置越靠前的词汇越受重视。此外,还可以通过给提示语添加括号并指定权重值来进一步调整权重,如( castle:1.5)就是直接给 castle这个词汇赋予权重,其中的数字即为权重大小。权重值越大,表示该元素在生成图像时的重要性越高。在默认情况下,权重值为 1,而在实际使用中,权重值通常在 0到 2之间调整。
在 Web UI界面中,使用()和 [ ]进行权重调整时,前者会使其中内容的权重乘以 1(实际无变化),后者则尝试通过除以 1(同样无实质影响)来调整权重,但这种方式并不直观且效率不高。尽管多重括号能够增加权重,如(((( castle))))通过 4个括号将 castle的权重提升至 1.4641,但这种做法既低效也不优雅。
因此,推荐采用(提示语:权重数)的方式更直接、高效地调整权重。在具体操作时,先选中一组词汇,然后通过方向键来设置或调整其权重值。具体操作如下。
( 1)以下是一个例子,展示如何输入正向提示词“最佳质量,杰作,基于物理的渲染,生动的色彩,墨水,水彩,一个女孩,身材修长,汉白玉发光皮肤,中式连衣裙,汉服,唐装,波波头,腰带,长发,刘海辫子,闭着一只眼睛,花海,日落,中国风格,绽放的效果,细致美丽的草原上有花瓣、花朵、蝴蝶、项链、微笑(花瓣重复描述以增强效果),周围飘浮着沉重的花瓣流动”。对应的英文提示词为“best quality, masterpiece, physically-based rendering, Vivid Colors, ink, water color, 1girl, slender, white marble glowing skin, china_ dress, hanfu, tang style, pibo, waistband, long hair, braided bangs, one eye closed, flower ocean, sunset, chinese_style_loft, Bloom e.ect, detailed beautiful grassland with petal, .ower, butter.y, necklace, smile, petal, surrounded by heavy .oating petal .ow”。
同时加入基础的负向提示词“nsfw, logo, text, badhandv4, EasyNegative, ng_ deepnegative_v1_75t, rev2-badprompt, verybadimagenegative_v1.3, negative_hand-neg, muted hands and .ngers, poorly drawn face, extra limb, missing limb, disconnected limbs, malformed hands, ugly”。
其中, badhandv4、 EasyNegative、 ng_deepnegative_v1_75t、 verybadimagenegative_v1.3、 negative_hand-neg 是 Embedding模型,需要读者从模型网站自行下载,它们有助于提升生成图像的质量,如图 2-24所示。

图 2-24
( 2)创作者可以在初期选择生成多张低分辨率的图像以进行筛选,然后使用之前介绍的保存种子的方法挑选出最满意的几张图进行高清重绘与放大。此处示例为一次生成 4张图,单击 “生成”按钮,如图 2-25所示。

图 2-25
( 3)从刚才生成的图中可以观察到既有满意的也有不满意的。其中,第一张和第四张图像较为符合先前的提示词描述,而第二张和第三张则错误地将 “花海 ”解读为 “花和海洋”,且未能体现出蝴蝶元素。基于此,选择图 2-25中的第四张图保存其种子,并特别增强了蝴蝶的权重至 1.3,然后再次单击“生成”按钮,以期获得更符合预期的图像,如图 2-26所示。

( 4)保存种子后多次生成图像,实际上是基于原图种子数据的相邻种子数据进行取样。在图 2-26中,除了第一张图像与先前的图像较为相似外,其余图像均存在显著差异。当创作者调整权重后,虽然成功地引入了蝴蝶元素,但也出现了权重溢出的现象。这是由于权重设置过大,导致原本应作用于特定修饰词的权重影响范围扩大,甚至“溢出”到了其他元素上。在


此例中表现为人物的发饰被影响,呈现出类似蝴蝶的形状。当权重调整至 1.5或更高时,这种 “画面污染”现象会更为严重,可能导致图像整体崩坏。因此不建议创作者将权重设置得过高,以避免出现此类问题,如图 2-27所示。

图 2-26
( 5)除此之外,创作者还可以尝试仅通过调整提示词的先后顺序来观察图像的变化。例如,将“蝴蝶”放置到最前面,相比直接提升蝴蝶的权重,调整顺序对整个图像的影响较小,主要表现为对人物发饰的轻微影响,而非直接出现蝴蝶元素。然而,这种调整也间接地提升了蝴蝶在图像中的“感知权重”,同时可能降低了其他部分的权重,对人物的衣服、姿势、背景等也产生了一定程度的影响,如图 2-28所示。

图 2-27 图 2-28
在 Web UI的文本理解机制中,确实存在着一种逻辑性的运作方式。这一逻辑性在蝴蝶实
例中得到了明确的验证,表明 AI在解析描述时会遵循特定的顺序,即词组的排列顺序会直接影响其权重的分配。鉴于此,创作者在编写标签时可以将其视为撰写一篇小作文的过程,运用作文的逻辑来构思和编排词组。通过借鉴作文的行文逻辑,创作者可以更有效地确定关键词的排列顺序,从而提升 AI在生成图像时的准确性和符合度。
在语言学中,描述一个事物时,常遵循“目标、定义、细节”的递进方式。以描述为例,在描述一幅画时,首先指明“这是一幅画”,接着阐述其类型或特点,最后细致地描绘画的细节;在描述一个人时,同样先确立“这是一个人”的前提,然后描述其性格、身份等特征,最后详细刻画其外貌、服饰及行为;在描述一个背景时,也是先明确“这是一个背景”,再概述其氛围或特点,最后具体描述背景中的元素及独特之处;对于背景中的物体,同样遵循先指出 “这是一个物体”,再说明其属性或种类,最后详细描绘其形状、颜色等具体特征的步骤。
运用这种逻辑思维方式,创作者能够有条不紊地对画面中的每个元素进行由整体到局部的详细描述。在描绘一幅画时,创作者可以先概括整幅画的氛围和主题,然后深入阐述画面中的主要对象,包括其数量、种类、具体形态、特效及装饰细节等。接着转向次要对象,同样细致入微地描述其各方面的特征。在细化到每一个对象时,创作者还可以进一步采用三段法来剖析其各个组成部分,如描述人物时,先总览其外貌与服饰特色,再逐一刻画五官、发型等细节。通过这样的层层分解与详尽阐述,创作者能够全面而深刻地分析并描述出整幅画中的所有元素。
通过以上方法不仅能够详尽地分析和描述整幅画中的所有元素,而且可以保证每个元素都能通过三段法进一步深挖细节。这一流程确保了创作者对整幅画有一个既全面又深入的理解。下面将通过具体例子来进一步展示这种文本逻辑的妙用。 
masterpiece, top quality, ultra HD 8k wallpaper, vivid watercolor painting, 1 boy located on a beach(一幅画,这是一幅生动的水彩画,画中展现了一个男孩在海滩上的场景)。 
1 casually dressed surfer boy, alone, full body, the boy standing next to a rock on the beach(男孩是一位身着休闲装的冲浪者,独自站立在海滩的岩石旁,身姿挺拔)。 
The boy has a sunny smile, healthy skin tone and bright 
blue eyes, brown short hair tousled by the sea breeze, wearing a baseball cap and a .shbone necklace(他脸上洋溢着阳光般的笑容,拥有健康的肤色和明亮的蓝眼睛,棕色短发在海风中略显凌乱。他头戴棒球帽,颈间挂着一条鱼骨项链)。 
the boy is wearing a yellow T-shirt and blue shorts, both adorned with vibrant patterns(他身着一件黄色 T恤和蓝色短裤,衣物上均饰有鲜艳的图案,为整体增添了几分活力)。 
sand and shells on the beach, various shells scattered on the beach, waves gently lapping the shore, sunlight, dazzling re.ections, shimmer, golden glow(海滩上,细软的沙粒与五彩斑斓的贝壳交相辉映,海浪轻柔地拍打着岸边,阳光洒在海面上,波光粼粼,整个海滩沐浴在一片金色的光辉之中)。

最终生成的效果如图 2-29所示。图 2-29 

2.2.4分布渲染
在 Web UI中存在一种独特的语法功能,允许创作者在同一幅画中分阶段地绘制不同的提示元素,这被称为分步渲染。其语法格式为 [A:B:step],其中 A和 B代表不同的内容描述, step则指定了渲染的步骤或比例。当 step大于 1时,它表示具体的步骤数;当 step小于 1时,则表示占总步数的百分比。
例如, [a boy with a blue shirt:red cap:0.3]这条指令意味着在前 30%的渲染过程中将绘制一个穿着蓝色衬衫的男孩,而在剩余的 70%中,在这个男孩的头上添加一顶红色帽子。这可以理解为 AI首先绘制出蓝色衬衫男孩的初步形象,然后在此基础上增添红色帽子的细节。
此外还有两种灵活的变体语法,即 [:B:step] 和 [A::step]。前者通过将 A留空,实现仅在指定 step后绘制 B的内容;后者则将 B留空,意味着仅根据 A的描述进行绘制,直至达到指定的 step。
这种分步渲染的方法特别适用于在图像中嵌套图像的场景。例如,可以首先绘制一个穿着 T恤的男孩,然后在 T恤的特定位置绘制一个苹果图案。如果 T恤和苹果的绘制顺序颠倒,那么苹果可能会被绘制在画面中的任意位置,而非预期的 T恤上。
在使用这种语法时,务必要仔细核对括号的使用,以确保准确无误。同时,分步渲染可能会带来一定的渲染延迟。例如,即使设定男孩渲染前 50步、背景渲染后 50步,男孩的完整渲染可能要在第 60步左右才完成。这可能是因为 AI在处理男孩形象时会优先关注面部细节,而头发、装饰等则可能被视为环境元素继续渲染。
下面是一段正向提示词的示例,旨在生成一张高质量、细节丰富的图像: 
extremely detailed CG unity 8k wallpaper,((( masterpiece))),((( best quality))),(( ultra-detailed)),( best illustration),( best shadow),(( an extremely delicate and beautiful)), dynamic angle, standing, solo, [impasto:1.3, a detailed cute girl with blue eyes and long wavy curly black hair wearing a detailed red dress with a white belt, beautiful detailed eyes:1.2,( cute face:1.2), expressionless,( upper body, legs),( red umbrella:1.3) ::0.5, : ( flat color),( dark rainy background),(( medium saturation))),( surrounded by raindrops),(( surrounded by puddles)), surrounded by city lights,( shining), Rain:0.5]
这段提示词旨在让 AI在前 70%的渲染步骤中绘制一个穿着红裙子、手持红色雨伞的女孩;而在后 30%的步骤中添加雨滴和城市灯光的元素。这样, AI会首先勾勒出女孩和红裙子的基本轮廓,然后在画面上增添雨滴和城市的夜景,最终效果如图 2-30所示。
正向提示词为:( extremely detailed CG unity 8k wallpaper),((( masterpiece))),((( best quality))),(( ultra-detailed)),( best illustration),( best shadow),(( an extremely delicate and beautiful)), dynamic angle, standing, solo, [impasto:1.3, a detailed cute girl with blue eyes and long wavy curly black hair wearing a detailed blue dress with a white belt, beautiful detailed eyes:1.2,( cute face:1.2), expressionless,( upper body, legs) ::0.5, : ( .at color),( bright garden background),(( high saturation))),( surrounded by .owers),(( surrounded by butter.ies)), surrounded by trees,( shining), Sunshine:0.5].
在这段提示词的指导下, AI将在前 50%的渲染步骤中绘制一个穿着蓝色连衣裙的女孩;而在接下来的 50%步骤中增添花园、花朵、蝴蝶和树木等元素。这意味着 AI会首先勾勒出女孩和连衣裙的基本轮廓,然后在背景中添加上述自然元素,最终效果如图 2-31所示。

图 2-30

图 2-31 


2.3用 Stable Diffusion生成彩色小鸟
本节在使用 Stable Diffusion的基础模型的前提下,尝试用最简单的文生图功能生成一只鸟的图像。
(1)打开 Stable Di.usion的 Web UI界面,如图 2-32所示。
(2)进入 “文生图 ”页面,在提示词区域输入 1 colorful bird(一只彩色的鸟),设置 “采样迭代步数”为 25、“采样方法”为 DPM++ 2S a Karras、“宽度”为 768、“高度”为 1024、“生成批次”为 4,其他保持初始状态,如图 2-33所示。
(3)单击“生成”按钮,等待几分钟,就完成了图像的生成,如图 2-34所示。

图 2-32

图 2-33

图 2-34 


2.4用 Stable Diffusion生成童话城堡
本节在使用 Stable Di.usion的基础模型的前提下,尝试用图生图功能生成一个七彩的美丽城堡图像。
(1)打开 Stable Di.usion的 Web UI界面,进入“图生图”页面,如图 2-37所示。

图 2-37
(2)在上传图像区插入准备好的图像,如图 2-38所示。

图 2-38 
(3)在提示词区域输入 Panoramic view,a colorful and beautiful castle,a fairy tale world(全景画面,一个七彩的美丽城堡,童话世界),设置“采样迭代步数”为 35、“采样方法”为 DPM++ 2S a Karras、“宽度”为 1024、“高度”为 575、“生成批次”为 4、“提示词相关性”为 8.5、“重绘幅度”为 0.5,如图 2-39所示。

图 2-39
(4)单击“生成”按钮,等待几分钟,就完成了图像的生成,如图 2-40所示。

图 2-40
(5)生成的结果中,第一张是生成结果的缩略图,如图 2-41所示。

图 2-41
(6)通过对比看到右下角的图比较接近人们对画面的审美需求,如图 2-42所示。这样就完成了城堡的创作过程。

图 2-42
(7)如果大家觉得画面细节有所欠缺,则需要增加“采样迭代步数”的值,设置为 65后再次生成,如图 2-43所示。生成的新的缩略图如图 2-44所示。

图 2-43

图 2-44 

2.5用 Stable Diffusion替换人物服装
本节给人物图像进行服装替换操作。Stable Di.usion的局部重绘功能是其图像生成应用中的一个核心特性,它允许用户对图像的特定部分进行再创作,从而实现更加细致和可控的图像编辑。
局部重绘功能主要依赖于蒙版的使用。用户可以通过画笔工具在图像上涂抹需要修改的部分,这部分区域即被蒙版覆盖。之后,Stable Di.usion会根据用户的指示和提供的正向提示词对蒙版区域进行重绘,而图像的其他部分保持不变。
(1)启动 Stable Di.usion的 Web UI界面,这是进行图像生成和编辑的主要平台。
(2)选择图生图功能,在“图生图”页面中用户可以找到局部重绘的选项,如图 2-45所示。

图 2-45
(3)通过上传自己的图像,或者使用从图生图功能中发送过来的图像进行局部重绘,如图 2-46所示。

( 4)使用局部重绘功能来修改图像中衣服的颜色及款式。在局部重绘界面中,用户可以使用画笔工具在图像上涂抹需要修改的部分,涂抹后的区域即被蒙版覆盖。用户还可以根据需要调整蒙版的模糊程度,以及选择重绘蒙版内容还是重绘非蒙版内容,如图 2-47所示。



图 2-46 
( 5)更改笔刷的大小,如图 2-48所示。

图 2-47 图 2-48
( 6)将要更改的地方使用笔刷进行涂抹,如图 2-49所示。

( 7)设置 “蒙版模式 ”为“重绘蒙版内容”,设置“蒙版区域内容处理”为“原版”,设置“重绘区域”为“整张图像”,如图 2-50所示。

( 8)设置“迭代步数”为 30,将“重绘尺寸”设置为上传图像的尺寸,或者设置为图像尺寸的不同倍数,否则图像会出现拉伸情况。设置 “重绘幅度”为 0.5,重绘幅度越大,与原图越不相符,反之越符合原图,如图 2-51所示。



图 2-49 

图 2-50图 2-51

( 9)在正向提示词框中输入 Orange clothes, shirt(橙色衣服,衬衫),如图 2-52所示。

图 2-52
( 10)单击“生成”按钮,原图将被局部修改(更改了衣服的颜色及款式),如图 2-53所示。

图 2-53 

第 3章Stable Diffusion模型详解 035


Stable Diffusion模型详解

在 AI绘画中通常会采用两种类型的模型,即大型模型和用于微调这些大型模型的小型模型(简称小模型)。大型模型主要指的是标准的 Latent Di.usion模型,它集成了完整的 Text Encoder、 U-Net和 VAE组件。鉴于微调大型模型对显卡和计算能力的要求较高,许多人转而使用小型模型。这些小型模型通过作用于大型模型的不同组成部分,以简洁的方式调整大型模型,以达到预期的艺术效果。 
3.1全部模型类型总结及使用方法
常见的用于微调大型模型的小型模型有 Textual Inversion(常被称为 Embedding模型)、 Hypernetwork模型和 LoRA模型。另外还有一种名为 VAE的模型,其作用类似于滤镜,能够调整画面的色彩及一些细微的视觉效果。值得注意的是,虽然大型模型本身已内置 VAE,但在某些融合模型中 VAE可能会出现问题,此时便需要借助外部 VAE来进行修复。
目前, AI绘画常用的模型后缀名有 .ckpt、 .pt、 .pth、 .safetensors,此外还包括 .png、 .webp这类特殊的图像格式。这些后缀名虽然代表标准模型,但是仅凭后缀名无法明确区分模型的具体类型。 
.ckpt、 .pt和 .pth是 PyTorch框架的标准模型保存格式,由于使用了 Pickle技术,可能存在一定的安全风险。 .safetensors则是一种新兴的、更安全的模型格式,它能通过工具与 PyTorch模型进行无缝转换。
鉴于不同类型的模型在绘画过程中的作用各异,用户在使用时需要明确模型的类型,并采用正确的方法激活模型,以确保其有效运作。 
3.1.1Dreambooth大模型 
Dreambooth大模型通常采用 .ckpt格式,一个完整的 .ckpt文件包含 Text Encoder、 Image Auto Encoder&Decoder以及 U-Net这三个关键结构。其中, U-Net作为 Stable Di.usion( SD)的主要架构,包含 12个输入层、一个中间层和 12个输出层。据 Github用户 ThanatosShinji估算, U-Net的总参数量约为 8.59亿。该大模型的文件大小可达 GB级别,常见 2GB、 4GB、 7GB等不同规格的模型。然而,模型的大小并不直接决定其质量。其存放位置如图 3-1所示。












3.2.3数据集的选择与处理
数据集是 AI模型训练的基石,通常由 PNG或 JPG格式的图像组成。数据集的质量、多样性和数量对于最终模型的表现至关重要。
高质量的数据集(如人物细节丰富、具有超高分辨率的图像)比低质量的数据集(如细节不足、模糊或人物建模简单的图像)更具优势,因为前者能提供更多信息,有助于模型深入学习和理解任务。此外,包含多角度、多样表情和体位的训练集优于仅包含正面和少量侧面视角的训练集,这是因为多角度和多样表情的数据能提供更丰富的信息,使模型能更准确地理解和生成人物。
对于同一原图,采用不同裁剪方式(远、中、近景)比单纯对原图进行自动处理更有效,因为不同的裁剪方式能展示不同的视角和细节,有助于模型更全面地理解和生成人物。
在处理服装和角色时,将不同服装但同角色的训练集分配到不同的概念( concept)中,比将它们混放在一个 concept中更有优势。这是因为不同的服装可能影响模型对角色的识别,分开处理有助于模型更好地区分它们。
对于图像数量,丰富的训练集可以通过适当提高重复率( repeat)来满足特定需求,因为更多的图像意味着能提供更多的信息,有助于模型更好地学习和理解任务。
当训练集素材稀缺时,可以从现有素材中挑选出质量最高的一小部分图像,并通过切分这些图像来扩充细节,从而增加数据集的多样性和数量。下面以某游戏中的角色为例,详细说明具体操作步骤。
( 1)观察完整的图像(此处展示的是 3D模型的截图),如图 3-30所示。
由于模型的背景相对简单,为了消除对人物的潜在干扰并提升模型的泛用性,建议创作者自行对图像进行抠图处理,将背景替换为白色或其他纯色背景,以便于后续通过标签来去除背景。此外,在 3D软件环境中,创作者可以通过旋转、放大和缩小操作来捕捉角色的各个细节,建议在截取时保持统一的比例,以确保图像的一致性和可用性。 3D模型的背面及侧面图如图 3-31所示,正面和反面特写如图 3-32所示。


图 3-30 图 3-31 

图 3-32
(2)当图像之间存在明显的关系时,通常训练出的模型不太容易出现图像崩坏的情况。对于其他图像,主要目标是追求更多样化的角度,如背后视角、俯视特写、侧身等,以丰富模型的视角表现。此外,还需要补充不同动作与表情的图像,以进一步提升模型的全面性和表现力。

(3)Tag打标处理:在打标过程中,可以选择全标或部分标注。全标即将所有标签都用于训练,这有助于模型学习更多信息,提高拟合度,但可能引入画风污染并延长训练时间。部分

( 3)在界面上方可以选择输入之前训练文本中的提示词,然后从已制作的 LoRA模型中选择一个,并将其中的数字替换为 NUM(作为占位符或变量名),同时调整其后的强度参数为 STRENGTH(表示强度的自定义变量),如图 3-43所示。这样就可以根据需要调整模型的应用强度了。







图 3-43
( 4)再次来到界面下方的脚本区域,将 X轴和 Y轴的类型都更改为“Prompt S/R”。在 X轴的值框中,首先在之前更改的 NUM后面加上英文逗号,然后再填入模型的数字。对于 Y轴的值框,同样先填入更改的 STRENGTH,然后再填入具体的强度值。由于 LoRA模型在强度低于 0.6时效果可能不太明显,为了节省时间,可以从 0.6开始设置强度值。注意,这里的所有逗号都必须是英文逗号,使用中文逗号将会导致错误,如图 3-44所示。

( 5)等待生成过程完成后将获得一张对比图表,该图表展示了每个模型在不同强度下的变化效果,通过这张图表可以轻松找到表现最优的模型并进行保存。至此, LoRA模型的全部训练步骤便已完成,如图 3-45所示。



图 3-44 图 3-45 


3.3在 Web UI中使用麦穗写实大模型
下面使用下载的“麦穗写实大模型”来生成写实风格的人物图像。
( 1)将下载好的大模型放在 models的 Stable-diffusion文件夹中,如图 3-46所示。

( 4)设置好采样步数及采样方法,以及图像的分辨率大小,单击“生成”按钮,便得到了使用麦穗写实大模型生成的女孩图像,如图 3-49所示。

图 3-49
( 5)换一个大模型来生图。选用勾线彩画风大模型同样来生成女孩图像,正向提示词依旧是 1girl(一个女孩),如图 3-50所示。

图 3-50 
(6)图像的大小参数及采样方法、采样步数保持不变,即可得到勾线彩画风大模型所生成的图像,如图 3-51所示。

图 3-51 

3.4在 Web UI中使用勾线彩画风大模型
下面使用下载的“勾线彩画风大模型”来生成彩绘风格的人物图像。
(1)将下载好的大模型放在 models的 Stable-di.usion文件夹中,然后在 Web UI界面的模型列表中选择勾线彩画风大模型。
(2)在正向提示词框中输入 1girl,Wearing orange clothes,long hair,on a country road,
Tindar e.ect light, high quality, 8K, <lora:MW_gufengsm_v11:0.4>, <lora:PP_20231011220007: 
0.6>(女孩,穿着橙色衣服,长发,在乡间小路上,丁达尔效果光,高画质, 8K)。
然后选择 LoRA模型为油画彩绘风和国风水墨水彩风格,并调整其权重比例。在反向提示词框中输入 NSFW, logo, text, blurry, lowquality, monochrome, grayscale, watermark, signature,( badbody:1.2),( extra arms:1.1),( extra limb:1.2), malformed hands, ugly,( dis.gured:1.2),中文含义为“NSFW,标识,文字,模糊,低质量,单色,灰度,水印,签名,(坏身体 :1.2),(多余的手臂 :1.1),(多余的肢体 :1.2),畸形的手,丑陋的,(毁损 :1.2)”,如图 3-52所示。

图 3-52
( 3)在采样方法中选择 Euler a,将迭代步数设置为 30,宽度和高度分别设置为 504像素、 768像素,总批次数设置为 1,单批数量设置为 4(可以一次性生成 4张图像),如图 3-53所示。

图 3-53 
(4)单击“生成”按钮,即可看到生成的 4张图像,如图 3-54所示。

图 3-54 

3.5LoRA的组合使用
在 Stable Di.usion中,除了有大模型外还有进一步控制风格的 LoRA模型。下面尝试


图 3-57

图 3-58 
( 5)在单击两个 LoRA模型之后,可以在正向提示词框中看到 LoRA模型的提示词。 LoRA由名称和一个数字组成,数字代表每个 LoRA在使用中所占的权重比例。通过调整后面的数字来调整 LoRA的权重比,如图 3-59所示。

图 3-59
( 6)输入提示词 1girl(一个女孩),如图 3-60所示。

图 3-60
( 7)设置采样方法、迭代步数和图像分辨率等参数,如图 3-61所示。

图 3-61
( 8)单击“生成”按钮,即可生成两个 LoRA模型叠加的图像,如图 3-62所示。

图 3-62 

3.6使用赛博丹炉工具炼制模型
下面在 Stable Di.usion中使用道玄 AI的赛博丹炉工具进行 LoRA模型的炼制。
(1)打开赛博丹炉工具,如图 3-63所示。

图 3-63
( 2)在赛博丹炉工具首页设置相关的参数。选择模型为 Stable Di.usion的官方 1.5大模型,在界面最上方的风格区域可以选择人物、产品、画风、建筑等风格,本例准备训练的模型为香水实拍风格( LoRA模型),选择产品风格,召唤词为 chanpin,用户也可以输入其他的召唤词,如图 3-64所示。

图 3-64
( 3)将搜集到的各种实拍照片导入上传素材选项中,然后可以在界面最下方进行预处理设置,包括裁剪模式设置、图像分辨率大小调整以及自动 Tag打标设置。通常,上传图像的数量在 40张至 80张之间,图像越多,效果往往越好,但相应地训练时长也会增加,同时对显卡的要求也会更高。在完成预处理后,即可进入 Tag编辑训练集阶段,如图 3-65所示。

(4)预处理后的图像已自动打标,用户需要对每个图像进行更精细的信息处理。删除多余 Tag,输入更准确、细致的标签,以提高最终炼制的 LoRA模型的质量,如图 3-66所示。



图 3-65

图 3-66
(5)进入查看进度选项中的参数调优环节,以调整下一步炼制的参数,如图 3-67和图 3-68所示。

图 3-67

图 3-68
(6)选择学习步数,它代表 AI对每张图像的学习次数,将其设置为 10,意味着 AI将对每张图像学习 10次,增加训练步数将延长训练时长。接着设置循环次数,它指所有上传的训练集图像进行学习的总次数,将其设置为 2,表示训练集图像将被循环学习两次。“每 N轮保存一个模型”选项决定循环多少次后保存一个模型,将其设置为 1,意味着每完成一轮训练集图像的学习就保存一个模型。
单击“确定”按钮开始训练,稍等片刻即可得到自己的 LoRA模型。注意,不同显卡的训练时间会有所不同,如图 3-69所示。

图 3-69
(7)在“进度”页面中可以找到已训练好的模型,并可以将其导入 Stable Di.usion中进行测试,如图 3-70所示。

图 3-70
(8)本例训练的香水实拍照片和 LoRA生图效果,如图 3-71和图 3-72所示。

图 3-71

图 3-72 

3.7使用秋叶整合包训练模型
本例训练大模型使用的是秋叶整合包,其包含 Dreambooth插件、WD 1.4自动标签识别和标签编辑器等。首先需要准备好训练集。
训练集要求:照片应为 512×512像素的方形图像,背景需干净且细节充足。虽然照片的数量越多越好,但在训练过程中图像质量的重要性高于数量。


(6)打开 Dreambooth插件,在模型种类中选择 1.5模型或 XL模型,并在下方的底模文件路径中复制并粘贴训练所需要的底模文件路径,如图 3-78所示。

图 3-78
(7)在“训练数据集路径”区域中填入训练集地址。对于其下方的“正则化”选项,大模型通常无须开启,只需准备尽可能多的训练集即可。图像的分辨率建议设置为 512×512像素,如果设置得过高,可能会导致计算机的显卡崩溃。其余设置保持默认即可,如图 3-79所示。

图 3-79
(8)在“保存设置”区域设置模型名称和保存路径,建议将模型保存至空间充足的硬盘,这是因为大模型通常占用较大的空间。保存格式和精度保持默认即可,自动保存模型的频率可根据训练参数及计算机的剩余内存进行调整,建议适当调低,如图 3-80所示。

( 9)在“训练相关参数”区域设置“最大训练 epoch(轮数)”为 10(或调整为 20),“批量大小”常设置为 2或 4。打开“梯度检查点”选项,以防止显存溢出,并将“梯度累加步数”设置为 8,如图 3-81所示。



图 3-80

图 3-81
( 10)调整完之后单击“开始训练”按钮,用户就可以训练出自己的大模型,如图 3-82所示。

图 3-82 



常用插件的安装及使用方法 


Stable Di.usion作为一种强大的 AI图像生成模型,拥有众多实用的插件来增强其功能和用户体验。部分插件可能需要特定的硬件或软件环境才能正常运行,用户需要确保自己的设备满足插件运行的要求。 
4.1Stable Diffusion插件 
Stable Di.usion插件的用法多种多样,主要取决于插件的具体功能和用途。以下是一些常见的 Stable Di.usion插件及其基本用法。 
4.1.1Stable Diffusion插件的安装方法
在安装和使用插件时,请确保插件的来源可靠,避免下载和安装恶意软件。插件可能会与 Stable Di.usion的某些版本不兼容,因此在安装前请仔细阅读插件的说明和兼容性信息。 
1.通过 Web UI安装
( 1)启动 Stable Di.usion Web UI。

( 2)切换到“扩展”( Extensions)选项卡。


( 3)选择“从网址安装”( Install from URL),将插件的 GitHub仓库地址或安装链接粘贴到输入框中。

( 4)单击“安装”( Install)按钮,等待插件安装完成。

( 5)在安装成功后可能需要重启 Web UI,以使插件生效。 


2.手动安装

( 1)如果已经下载了插件的安装包,可以将其解压并放置到 Stable Di.usion的 extensions目录下。


( 2)重启 Web UI,插件将自动加载。 

4.1.2Stable Diffusion插件的基本用法
在使用插件时,请遵循插件的说明和操作步骤,以避免出现错误或问题。 
1.提示词助手类插件
这类插件通常提供关键词预设、随机灵感关键词等功能。用户可以通过单击插件提供的关键词将其添加到提示词框中,以生成与关键词相关的图像。部分插件还支持反向提示词,用户可以通过右击关键词来添加。 
2. 图像编辑类插件

这类插件如 Canvas-zoom(画布缩放器)、 Face-editor(面部修复插件)等。用户可以在生成图像后使用这些插件对图像进行缩放、平移、面部修复等操作。部分插件还支持手涂蒙版功能,用户可以通过绘制蒙版来指定需要编辑的图像区域。 

3.
图像生成类插件

这类插件如 Controlnet、 Depth-lib等。
这些插件通常结合提示词使用,可以生成具有特定姿势、手势或背景的图像。
用户需要按照插件的要求输入相应的提示词或控制点,然后生成图像。 


4.
模型管理类插件

这类插件如 Civitai-Helper、 Civitai-extension等。这类插件提供模型信息的下载、预览图管理等功能。用户可以通过插件方便地管理自己的模型资源,并检查是否有新版本可供更新。 

5.
其他高级插件


这类插件如 Latent Couple(手涂蒙版定位插件)、 Agent Scheduler(时间管理大师)等。这些插件提供了更高级的功能,如精确定位蒙版区域、自动化管理生成任务等。用户需要根据自己的需求选择合适的插件,并按照插件的说明进行操作。 

4.1.3Stable Diffusion常用插件 
Stable Di.usion作为一种强大的 AI图像生成模型,拥有众多实用的插件来增强其功能和用户体验。这些插件涵盖了从图像生成、编辑到模型管理等多个方面,为用户提供了丰富的选择。以下是一些 Stable Di.usion常用的插件及其主要功能。 
1. 提示词助手类插件 
prompt-all-in-one:这款插件为英文不好的用户提供了极大的便利,能够快速弥补英文短板。它支持中文输入自动转英文、自动保存使用的描述词、提供描述词历史记录、快速修改权重、收藏常用描述词等功能。此外还提供了多种翻译接口选择和一键粘贴、删除描述词等实用功能。 
SixGod:该插件帮助用户快速生成逼真、有创意的图像。它包含清空正向提示词和负向提示词的功能,提供了人物、服饰、发型等各个维度的提示词起手式,还支持一键清除正向提示词与负向提示词、随机灵感关键词、提示词分类组合随机等功能。 
2. 图像编辑类插件 
After Detailer:这是一款强大的图像编辑工具,专注于修复和编辑图像中的人脸及手部细节。它能够自动识别和修复图像中的瑕疵,无论是 2D还是 3D人脸及手部,都可以通过调整参数来改变识别的对象和识别区域的大小及位置等。 
Inpaint Anything:这款插件用于删除和替换图像中的任何内容。它使用人工智能来自动识别和修复图像中的缺陷,无须使用遮罩。用户可以删除图像中不需要的对象或瑕疵、修复图像中的损坏、替换图像中的对象或背景,以及创建创意图像效果。 
3. 图像生成类插件 
ControlNet:这是一款用于增强 Stable Di.usion图像生成控制能力的插件。它通过引入额外的输入条件(如参考图像、姿态检测、线稿、深度图等)来精确地控制图像生成的细节,如控制人物的姿势和表情。 ControlNet提供了多种模型供用户选择,每种模型都有其特定的应用场景和参数设置。 
Depth-Guided Image Generation:这款插件可以根据输入的深度信息生成更加真实的 3D图像。它为用户提供了更多的创作自由度和图像生成的可能性。 
4. 模型管理类插件 
Civitai Helper:这款插件主要用于管理从 Civitai网站下载的大模型、 LoRA等内容。它可以帮助用户自动加载模型的封面图和触发词等信息,并添加模型的访问地址。此外,用户还可以通过该插件方便地浏览和管理已下载的模型资源。 
5. 其他高级插件 
ultimate SD upscale:这款插件是一个强大的图像超分辨率工具,可以将低分辨率图像提升到高分辨率,同时减少噪声和模糊。它使用的超分辨率模型基于深度学习技术,具有较高的准确性。 
Segment Anything:这是一款由 Meta AI开发的图像分割工具,能够识别并分割图像中的不同对象。它使用深度学习技术实现了零样本泛化和交互式分割等功能,为用户提供了更多的图像处理选项。
以上仅是 Stable Di.usion众多插件中的一部分,每个插件都有其独特的功能和用途。用户可以根据自己的需求选择合适的插件来增强 Stable Di.usion的功能和用户体验。 


4.2ControlNet插件 
ControlNet是 Stable Di.usion的一个扩展插件,用于增强图像生成的可控性和精确度。 ControlNet的主要功能是通过引入额外的控制条件(如边缘检测、草图处理、人体姿势等)来精确地控制 AI生成的图像。用户可以根据需要选择不同的控制类型和模型,通过调整控制权重和介入时机等参数来实现对图像生成过程的精细控制。 
ControlNet插件在 Stable Di.usion中的应用非常广泛,可以用于多种场景和创作需求。例如,在人物图像生成中,用户可以通过 ControlNet插件控制人物的姿势、表情和服装等细节;在建筑设计场景中,可以生成具有特定结构和深度的建筑图像;在艺术创作中,可以根据线稿或草图生成精细的绘画作品等。
此外, ControlNet插件还支持多单元组合应用,可以与其他 Stable Di.usion插件和模型结合使用,进一步增强图像生成的效果和可控性。接下来介绍其安装步骤及常用模型。 
4.2.1ControlNet插件的安装以及模型的下载
下面介绍 ControlNet插件的安装及模型的下载的方法。
( 1)进入 GitHub社区,搜索 sd-webui-controlnet并转到该页面,如图 4-1所示。
( 2)单击 Code按钮复制链接 https://github.com/Mikubill/sd-webui-controlnet.git(若网络不佳或遇到其他问题,可直接下载页面下方提供的安装包,并存入 extensions文件夹中),如图 4-2所示。


图 4-4

图 4-5 


1. Canny模型 
Canny模型能够提取图像的边缘,生成较为粗略的线稿,这种线稿可用于快速迁移图像的轮廓,进而实现风格的转换,如图 4-10所示。

图 4-10 
2. Depth模型 
Depth模型用于提取图像的深度信息,主要作用是控制图像的空间关系,如图 4-11所示。

图 4-11 


3. OpenPose模型 
OpenPose模型能够生成人物的骨架图,用于控制人物的动作姿势。新版模型还能识别人物的面部表情以及手指细节,如图 4-12所示。

图 4-12 
4. MLSD模型 
MLSD模型与 Canny模型在用法上相似,但由于其对直线有更好的识别效果,所以常被用于处理建筑类图像,如图 4-13所示。

图 4-13 


5. Lineart模型 
Lineart模型与 Canny模型在用法上相似,但相比之下,Lineart模型能识别更多的线条细
节。此外,它还提供了多种处理器选项,如写实、动漫等,以满足不同需求,如图 4-14所示。

图 4-14 

6. SoftEdge模型 
SoftEdge模型与 Canny模型的使用方法相似,也会生成较为粗略的轮廓图,如图 4-15所示。

图 4-15 

7. Shuffle模型 
Shu.e模型作为一种风格化模型,通过对输入的图像进行像素或特征块的随机打乱,能够与其他模型协同工作,实现风格迁移的效果。经过 Shu.e处理后的图像效果如图 4-16所示。

图 4-16
被迁移的图像效果如图 4-17所示,最终效果如图 4-18所示。

图 4-17 图 4-18 
8. Tile模型 
Tile模型的用途广泛,可用于对模糊照片进行降噪处理,为图像增加细节,或提升图像的分辨率,如图 4-19所示。

图 4-19 


9. Inpaint模型 
Inpaint模型允许用户直接在生成的图像中通过画笔工具修改或替换特定部分,如图 4-20所示。

图 4-20 

图 4-20(续) 

10. Reference模型 
Reference模型能够迅速迁移角色的特征或整体风格,如图 4-21所示。

图 4-21 



4.3换脸插件 Roop 
Roop是一款功能强大的免费换脸软件,现已被开发为插件,可直接通过 Stable Di.usion使用,接下来介绍其安装及使用方法。
(1)在准备安装训练脚本之前,请确保安装了必要的依赖项,包括 Python 3.10、Git以及 Visual Studio 2015、2017、2019或 2022的可再发行组件。若用户之前已部署 Stable Di.usion的离线版本,可参考当时的详细操作进行安装。


图 4-25
(6)重启 Web UI后,可以在插件栏中看到已安装好的 Roop插件,如图 4-26所示。

图 4-26
(7)使用时,只需要将待换脸的人脸图像放入指定位置,并勾选“启用”复选框即可,如图 4-27所示。
(8)原图如图 4-28所示,换脸之后的效果如图 4-29所示。

图 4-27

图 4-28

图 4-29 

( 3)打开 Web UI,在“扩展”选项卡中选择“从网址安装”,将之前复制的 GitHub仓库链接粘贴到第一行的“扩展的 git仓库网址”中。单击“安装”按钮,等待片刻后,若在下方出现“Installed into stable-di.usion-webui\extensions\adetailer-Use Installed tab to restart”的提示,表示安装成功。此时,请根据提示使用“已安装”标签页来重启应用,以应用新安装的扩展。安装界面如图 4-32所示。

图 4-32
( 4)重启 Web UI后,可以在插件栏中看到已安装好的 ADetailer插件,如图 4-33所示。

图 4-33
( 5)在不启用 ADetailer插件的情况下生成一张人物全身图,此时可以观察到人物的脸部存在一定程度的细节破坏,如图 4-34所示。

(6)勾选“启用 After Detailer”复选框后,人物脸部细节崩坏的问题立即得到了显著改善,如图 4-35所示。

(7)若创作者拥有其他脸型的 LoRA模型,可以将其加入 ADetailer的正向提示词中,从而实现换脸操作,如图 4-36所示。



图 4-34图 4-35


图 4-36 

4.5手部修复

图 4-37 
在使用 Stable Di.usion生成全身图像时,常会出现手部细节崩坏的问题。下面详细介绍如何在 Stable Di.usion中使用 ADetailer插件进行手部细节的修复。
( 1)打开 Web UI,使用 Stable Di.usion中的 ADetailer插件来进行面部修复,如图 4-37所示。

( 2)将高分辨率修复和 ADetailer插件开启,在单元 1中选择面部修复,并且在单元 2的模型列表中选择手部修复模型。在正向提示词框中输入 detail hand,如图 4-38所示。

( 3)选择大模型,输入正向提示词 1girl, park,( holding-book: 1.1),中文含义为“一个女孩,公园,(拿着书 :1.1)”;输入反向提示词 dis.gured, ugly, bad hands, too many .ngers, poorly drawn hands,( mutated hands:1.2),( malformed hands:1.1),中文含义为“毁


容,丑陋,不好的手,太多的手指,画得不好的手,(变异手 :1.2),(畸形手 :1.1)”,如图 4-39所示。

图 4-38

图 4-39
(4)采样方法选择 DPM++ 2M,迭代步数设置为 30,并且固定一下种子值,如图 4-40所示。

图 4-40
(5)单击“生成”按钮,生成图像。在图 4-41中,左图为不开启 ADetailer插件的效果,手部出现崩坏的问题;右图为开启 ADetailer插件的效果。

图 4-41 

4.6高分辨率精化
通过高分辨率精化可以将小图进行放大处理,下面使用 Stable Di.usion自带的 Ultimate SD upscale脚本进行高分辨率精化操作。
(1)打开 Web UI,进入“图生图”页面,如图 4-42所示。

图 4-42
(2)在“脚本”区域选择 Ultimate SD upscale选项,如图 4-43所示。

图 4-43
(3)在下面的 Target size type区域选择 Scale from image size(按图像大小缩放)选项,在后面的尺寸中调整放大倍数。在“放大算法”区域选择算法,不同的放大算法会对图像的质量产生影响。在下面的选项中可以调整分块的宽度、高度以及蒙版边缘的模糊程度。这个插件的原理是将需要放大的图像进行分块处理,对每块图像进行二次放大和修复,再将所有分块拼接成最终的图像。这里由于显卡的计算能力不足以直接将 4KB图像放大到 8KB,所以使用这种方式来放大图像,如图 4-44所示。

图 4-44
(4)上传一张图像,按照上面的方式设置后进行高分辨率放大,如图 4-45所示。
(5)可以看到图像由原来的 2MB放大到了 6MB,图像的整体质量得到了很大的提升,如图 4-46所示。

图 4-45 图 4-46 

4.7AI动画制作 
AI对图像的强大理解能力赋予了 AI实现动画的潜力。目前, AI已经能通过风格转换技术实现较为稳定的镜头运动和画面衔接。通过使用 Ebsynth插件, AI转换的视频质量得到了显著提升,尤其是极大地优化了视频中的闪烁问题。接下来详细介绍如何安装相关插件以及使用它们来制作 AI动画。 
4.7.1前期安装准备
前期安装准备的具体操作步骤如下。
( 1)登录 FFmpeg官网下载软件包, FFmpeg官网的地址为 https://.mpeg.org/。在进入该网站后单击 Download按钮,然后选择适合自己的计算机系统的版本进行下载,建议优先下载 Full版本,如图 4-47所示。

( 2)解压 FFmpeg到任意路径,并复制软件包中 bin文件夹的路径,如图 4-48所示。

( 3)打开系统的高级系统设置(可以通过 Windows自带的搜索功能搜索“高级系统设置”,或者通过 Win+R键调出 “运行 ”对话框后输入 sysdm.cpl来快速访问),单击 “高级 ”标签页下的“环境变量”按钮,如图 4-49所示。

( 4)在“系统变量”中选择 Path项,单击“编辑”按钮,如图 4-50所示。

( 5)在弹出的对话框中粘贴刚才复制的 FFmpeg bin文件夹路径,然后依次单击“确定”按钮进行保存,如图 4-51所示。




图 4-50 图 4-51
( 6)再次通过 Win+R键调出“运行”对话框,输入 cmd打开命令行界面。在命令行中输入 .mpeg -version,如果系统返回了 FFmpeg的版本号,则表示 FFmpeg已成功安装,如图 4-52所示。

图 4-52
( 7)下载 Ebsynth软件,请访问 Ebsynth官网( https://ebsynth.com/,进入网站后,单击 Download按钮,并填写一个邮箱地址,然后即可开始下载),如图 4-53所示。


图 4-56
(11)等待下载完成后,如果弹出 Successfully installed提示,则表示安装成功,如图 4-57所示。

图 4-57 

4.7.2正式制作流程
正式制作流程如下。




图 4-66

图 4-67
(11)宽度和高度应保持与原始图像相同,重绘幅度一般设置在 0.35左右,如果加入了 ControlNet功能,可以将该值调至 0.5以上。然后单击“生成”按钮,AI将自动进行批处理。在完成后,可以在 img2img文件夹中查看处理结果,如图 4-68所示。

图 4-68
(12)如果发现颜色在扩展过程中出现了问题,可以进入“步骤 3.5”选项卡进行颜色校正。在这里只需放入一张颜色正常的图像,然后单击“生成”按钮即可,如图 4-69所示。

图 4-69 
( 13)进入“后期处理”页面,在“输入目录”和“输出目录”区域填入路径,如图 4-70所示。

图 4-70
( 14)切换至“缩放到”选项卡,将尺寸更改为视频的原始尺寸,同时选择并填写 Upscaler 1的采样器(对于动漫内容,通常建议选择 R-ESRGAN 4x + Anime6B作为采样器)。在完成设置后,单击“生成”按钮,如图 4-71所示。

图 4-71
( 15)进入 Ebsynth Utility页面,打开“过程步骤”区域中的“步骤 5”选项卡。在单击 “生成”按钮后,系统将在项目文件夹中生成对应的 ebs文件,如图 4-72所示。

( 16)选择刚才生成的 ebs文件并通过 Ebsynth软件打开。在软件界面中单击“生成”按钮,软件将自动进行智能过渡的生成。当界面右侧的进度条全部变为绿色时,表示运算已完成。之后,可以回到 Ebsynth Utility页面,根据需要选择输出视频的格式(通常视频格式为 MP4),如图 4-73所示。



图 4-72

图 4-73
选择好格式之后,单击“生成”按钮,把刚才所有的关键帧重新组合成视频帧。至此,AI视频的生成全部结束,用户可以在项目文件夹中找到一个有声源和一个无声源的版本。

Stable Diffusion关键词及图像风格化 107



Stable Diffusion关键词及图像风格化

本章聚焦于关键词来源与关键词控制两大核心点,详细介绍多个与 Stable Di.usion相关的关键词资源,包括多个网站及关键词插件。此外,本章还将介绍多种图像的风格化案例。 
5.1Stable Diffusion标签超市
在 Stable Di.usion中,提示词同样扮演着至关重要的角色。当创作者面临创意枯竭或灵感不足时,使用相关的插件或提示词网站可以有效丰富输出图像的内容,使其更加多彩和富有创意。 
Stable Di.usion标签超市的网址为 https://tags.novelai.dev/,以下是其具体的使用介绍。
(1)进入网站后,左侧有 4个可供选择的选项,如图 5-1所示。

图 5-1
(2)选择“标签”选项,界面总体上被划分为人文景观、人物、作品角色、构图、物品、自然景观、艺术破格等几个大类。其中,部分标签还进行了更为具体的细分,如图 5-2所示。





图 5-9
(4)重启 Web UI后,可以看到刚安装好的插件已经出现在界面中,如图 5-10所示。

图 5-10
(5)该插件提供了丰富的关键词预设,创作者只需用鼠标单击,预设的关键词就会出现在上方的正向提示词区域;而使用鼠标右击,则会将其添加到反向提示词区域,如图 5-11所示。

(6)当不确定自己想要生成什么样的图像时,可以尝试使用“随机灵感”功能。单击“随机灵感关键词”按钮,系统会随机生成一些关键词。当看到比较满意的关键词时,可以将其选中并发送到提示词框中,以便用于图像的生成,如图 5-12所示。



图 5-11 

图 5-12 

5.3Comfy UI绘图业务管线工具 
Comfy UI是一个与 Web UI不同但都属于 Stable Di.usion绘图的工具,它更加接近于 Stable Di.usion的底层逻辑,并允许用户构建自己的工作流,以节省时间并更好地发挥 Stable Di.usion的性能。 
Comfy UI是一个基于节点流程式的 Stable Di.usion绘图工具。它将 Stable Di.usion的流程拆分成节点,实现了工作流的定制和可复现性。用户可以通过调整模块链接来达到不同的出图效果,从而提供更加精准的工作流定制。
5.3.1Comfy UI的特点 
1.高效性
与 Web UI相比,Comfy UI在生成图像的速度上提升了 10%~ 25%。在生成大图像时, Comfy UI不会爆显存,从而提高了稳定性和可靠性。 
2.高度定制性 
Comfy UI允许用户通过节点化的工作流程来定制自己的工作流。用户可以根据需要添加、删除或修改节点,以实现特定的图像生成效果。 
3.可复现性
由于 Comfy UI采用了节点化的工作流程,所以用户可以轻松地重现之前的图像生成结果。这对于需要频繁进行图像生成和修改的用户来说是非常有用的。 
4.丰富的功能 
Comfy UI不仅支持基本的图像生成,还支持动画编辑和视频输出等功能。这使得 Comfy UI成为了一个集图形设计、动画编辑与视频输出于一体的强大工具。 

5.3.2Comfy UI的使用场景 
1.专业设计师
对于需要高度定制化和高效性的专业设计师来说,Comfy UI是一个理想的选择。可以通过构建自己的工作流来快速生成符合要求的图像作品。 
2.业余爱好者
对于对图像生成感兴趣的业余爱好者来说,Comfy UI也提供了一个学习和探索的平台。可以通过调整节点和参数来尝试不同的图像生成效果,并逐渐掌握 Comfy UI的使用技巧。 
3.科研工作者
对于需要进行图像分析和处理的科研工作者来说,Comfy UI也具有一定的应用价值。可以使用 Comfy UI的高效性和可复现性来快速生成和分析图像数据。 

5.3.3Comfy UI与 Web UI的比较 
1. 工作流程 
Web UI采用了较为传统的图像生成流程,而 Comfy UI采用了节点化的工作流程,这使得 Comfy UI在定制性和可复现性方面更具优势。 
2. 性能
在生成图像的速度和稳定性方面,Comfy UI相对于 Web UI有所提升,这使得 Comfy UI在处理大图像和复杂场景时更加高效和可靠。 

3. 功能 
Web UI主要支持基本的图像生成功能,而 Comfy UI在此基础上增加了动画编辑和视频输出等功能,这使得 Comfy UI在应用场景上更加广泛和灵活。 


5.3.4使用 Comfy UI 
Comfy UI是一个功能丰富且高度可定制的 Stable Di.usion操作界面。它采用了节点化的工作流程,具有高效性、高度定制性和可复现性等优点。无论是专业设计师、业余爱好者还是科研工作者,都可以通过 Comfy UI来快速生成符合要求的图像作品或进行图像分析和处理。
本例在 Comfy UI中搭建最基础的文生图工作流。
(1)打开 Comfy UI,创建大模型节点。右击,在弹出的快捷菜单中选择 Add Node → loaders → Load Checkpoint选项,添加大模型节点,如图 5-13所示。

图 5-13
(2)添加好后可以在下面的列表中切换大模型,如图 5-14所示。

图 5-14 
(3)添加提示词节点。右击,在弹出的快捷菜单中选择 Add Node → conditioning → CLIP Text Encode(Prompt)选项,添加两个提示词节点,分别作为正向提示词以及反向提示词,如图 5-15所示。

图 5-15
(4)添加取样器。右击,在弹出的快捷菜单中选择 Add Node → sampling → KSampler选项,添加节点,如图 5-16所示。

图 5-16

(5)添加控制图像节点。右击,在弹出的快捷菜单中选择 Add Node → Latent → Empty Latent Image选项,添加节点,如图 5-17所示。

(6)添加 VAE解码节点。右击,在弹出的快捷菜单中选择 Add Node → Latent → VAE Decode选项,添加节点,如图 5-18所示。

(7)添加输出图像节点。右击,在弹出的快捷菜单中选择 Add Node → image → Save Image选项,添加节点,如图 5-19所示。



(8)链接各个节点,使其构成完整的工作流,如图 5-20所示。

图 5-17

图 5-18 

图 5-19

图 5-20 
(9)输入正向提示词和反向提示词,选择好大模型并调整相关的参数,即可进行文生图。 


5.4Stable Diffusion风格化关键词
使用 Stable Di.usion能够创作出众多极具风格化的作品。本节介绍一些常用的酷炫效果、材质效果、绘画效果、建筑效果、景别效果及镜头效果的描述语案例,旨在帮助 AI设计从业者扩宽生成图像的想象力,并为设计师的艺术创作提供辅助。 
5.4.110种酷炫效果图像
下面介绍生成 10种酷炫效果图像的关键词。 
1.全息图效果
全息效果图(在描述词中运用 hologram,这里以汽车为例)如图 5-21所示。

图 5-21 
2.镀铬效果
镀铬效果图(在描述词中运用 made of chrome,这里以汽车为例)如图 5-22所示。

图 5-22 
3. X光透视效果 
X光透视效果图(在描述词中运用 X-ray,这里以汽车为例)如图 5-23所示。

图 5-23 
4.生物发光效果
生物发光效果图(在描述词中运用 bioluminescent,这里以汽车为例)如图 5-24所示。

图 5-24 
5.机械效果
机械效果图(在描述词中运用 mechanic,这里以汽车为例)如图 5-25所示。

图 5-25 
6. 赛博朋克效果
赛博朋克效果图(在描述词中运用 cyberpunk,这里以汽车为例)如图 5-26所示。

图 5-26 
7. 机甲效果
机甲效果图(在描述词中运用 Gundam mecha,这里以汽车为例)如图 5-27所示。

图 5-27 
8.元宇宙效果
元宇宙效果图(在描述词中运用 metaverse,这里以汽车为例)如图 5-28所示。

图 5-28 
9.蒸汽效果
蒸汽效果图(在描述词中运用 steam,这里以汽车为例)如图 5-29所示。

图 5-29 
10. 霓虹效果
霓虹效果图(在描述词中运用 Neon spotlights,这里以汽车为例)如图 5-30所示。

图 5-30 

5.4.210种材质效果图像
下面介绍生成 10种材质效果图像的关键词。 
1.
皮革效果

皮革效果图(在描述词中运用 leather,这里以服装为例)如图 5-31所示。 

2.
陶瓷效果


陶瓷效果图(在描述词中运用 ceramics,这里以瓶子为例)如图 5-32所示。

图 5-31

图 5-32 
3.混凝土效果
混凝土效果图(在描述词中运用 concrete,这里以肖像为例)如图 5-33所示。

图 5-33 
4. 煤炭效果
煤炭效果图(在描述词中运用 coal,这里以杯子为例)如图 5-34所示。

图 5-34 
5. 棉线效果
棉线效果图(在描述词中运用 Cotton thread,这里以外套为例)如图 5-35所示。

图 5-35 
6.金属效果
金属效果图(在描述词中运用 metal,这里以杯子为例)如图 5-36所示。

图 5-36 
7.钻石效果
钻石效果图(在描述词中运用 diamond,这里以杯子为例)如图 5-37所示。

图 5-37 
8.塑料效果
塑料效果图(在描述词中运用 plastic,这里以瓶子为例)如图 5-38所示。

图 5-38 
9.丝绸效果
丝绸效果图(在描述词中运用 silk,这里以裙子为例)如图 5-39所示。

图 5-39 
10.报纸效果
报纸效果图(在描述词中运用 newspaper,这里以裙子为例)如图 5-40所示。

图 5-40 

5.4.3 10种绘画效果图像
下面介绍生成 10种绘画效果图像的关键词。 
1.水墨画效果
水墨画效果图(在描述词中运用 Ink wash painting,这里以猫咪为例)如图 5-41所示。

图 5-41 
2.
草图风格效果

草图风格效果图(在描述词中运用 Sketching,这里以猫咪为例)如图 5-42所示。 

3.
油画效果


油画效果图(在描述词中运用 oil painting,这里以猫咪为例)如图 5-43所示。

图 5-42

图 5-43 
4.卡通漫画效果
卡通漫画效果图(在描述词中运用 cartoon,这里以猫咪为例)如图 5-44所示。

图 5-44 
5.超现实主义效果
超现实主义效果图(在描述词中运用 Surrealism,这里以猫咪为例)如图 5-45所示。

图 5-45 
6.扁平风格效果
扁平风格效果图(在描述词中运用 Flat Style,这里以猫咪为例)如图 5-46所示。

图 5-46 
7.古典风格效果
古典风格效果图(在描述词中运用 classical,这里以猫咪为例)如图 5-47所示。

图 5-47 
8.像素风格效果
像素风格效果图(在描述词中运用 Pixel Style,这里以猫咪为例)如图 5-48所示。

图 5-48 
9.写实风格效果
写实风格效果图(在描述词中运用 Realistic Style,这里以猫咪为例)如图 5-49所示。

图 5-49 
10.浮世绘风格效果
浮世绘风格效果图(在描述词中运用 Ukiyoe Style,这里以猫咪为例)如图 5-50所示。

图 5-50 

5.4.410种建筑效果图像
下面介绍生成 10种建筑效果图像的关键词。 
1.
传统中式建筑效果

传统中式建筑效果图(在描述词中运用 Traditional Chinese architecture)如图 5-51所示。 

2.
霓虹街效果

霓虹街效果图(在描述词中运用 Neon Street)如图 5-52所示。 

3.
哥特教堂效果


哥特教堂效果图(在描述词中运用 Gothic Church)如图 5-53所示。

图 5-51

图 5-52 

图 5-53 
4.地中海建筑效果
地中海建筑效果图(在描述词中运用 Mediterranean architecture)如图 5-54所示。

图 5-54 
5.意大利建筑效果
意大利建筑效果图(在描述词中运用 Italian architecture)如图 5-55所示。

图 5-55 
6.印度建筑效果
印度建筑效果图(在描述词中运用 Indian architecture)如图 5-56所示。

图 5-56 
7.巴洛克建筑效果
巴洛克建筑效果图(在描述词中运用 Baroque architecture)如图 5-57所示。

图 5-57 
8.园林风格建筑效果
园林风格建筑效果图(在描述词中运用 Garden style architecture)如图 5-58所示。

图 5-58 
9.现代主义建筑效果
现代主义建筑效果图(在描述词中运用 Modernist architecture)如图 5-59所示。

图 5-59 
10.法国建筑效果
法国建筑效果图(在描述词中运用 French architecture)如图 5-60所示。

图 5-60 


5.4.56种景别效果图像
下面介绍生成 6种景别效果图像的关键词。 
1.超特写细节效果
超特写细节效果图(在描述词中运用 Ultra close-up detail shot)如图 5-61所示。 
2.特写效果
特写效果图(在描述词中运用 Close up shot)如图 5-62所示。
图 5-61 

图 5-62
3.中近景效果
中近景效果图(在描述词中运用 Mid shot)如图 5-63所示。

图 5-63 
4.
全景效果

全景效果图(在描述词中运用 full shot)如图 5-64所示。 

5.
远景效果

远景效果图(在描述词中运用 long-shot)如图 5-65所示。 

6.
大远景效果


大远景效果图(在描述词中运用 extreme long-shot)如图 5-66所示。

图 5-64

图 5-65 

图 5-66 

5.4.67种镜头效果图像
下面介绍生成 7种镜头效果图像的关键词。 
1.
广角镜头效果

广角镜头效果图(在描述词中运用 Wide angle lens,这里以女孩为例)如图 5-67所示。 

2.
鱼眼镜头效果

鱼眼镜头效果图(在描述词中运用 Fisheye lens,这里以女孩为例)如图 5-68所示。 

3.
视点镜头效果


视点镜头效果图(在描述词中运用 point of view shot,这里以透过镜头瞄准的第一视角为例)如图 5-69所示。 
4.仰拍镜头效果
仰拍镜头效果图(在描述词中运用 low-angle shot,这里以女孩为例)如图 5-70所示。

图 5-67

图 5-68 

图 5-69

图 5-70 
5.俯拍镜头效果
俯拍镜头效果图(在描述词中运用 High-angle shot,这里以女孩为例)如图 5-71所示。

图 5-71 
6.斜角镜头效果
斜角镜头效果图(在描述词中运用 dutch angle shot,这里以女孩为例)如图 5-72所示。

图 5-72 
7.背景虚化效果
背景虚化效果图(在描述词中运用 Blurred background,这里以女孩为例)如图 5-73所示。

图 5-73 




使用 Stable Diffusion构图


使用 Stable Di.usion进行构图是融合了文本描述、图像生成以及艺术创作技巧的综合性过程。Stable Di.usion作为一款基于大型模型的 AI图像生成工具,具备从简略涂鸦起步,逐步丰富细节,直至创作出与目标图像高度相似的作品的能力。以下将详细阐述使用 Stable Di.usion进行构图的具体步骤与实用技巧。 
6.1使用涂鸦构图
本例首先使用 Photoshop的画笔工具绘制一幅简单的汽车涂鸦,如图 6-1所示。然后在 Stable Di.usion中进行汽车的生成,最终生成效果如图 6-2所示。

图 6-1

图 6-2
(1)在 Photoshop中画出一个汽车的涂鸦,如图 6-3所示。

图 6-3
( 2)打开 Web UI界面,进入“图生图”页面。选择麦穗写实大模型,在正向提示词框中输入 car(汽车),如图 6-4所示。

图 6-4
( 3)将画出的汽车涂鸦导入,如图 6-5所示。

( 4)设置重绘尺寸等参数,如图 6-6所示。

(5)单击“生成”按钮生成图像,如图 6-7所示。



图 6-5 图 6-6

图 6-7
最终效果如图 6-8所示。

图 6-8 

6.2使用色块构图
本例首先使用 Photoshop的画笔工具绘制一幅简单的色块涂鸦,如图 6-9所示。然后在 Stable Di.usion中进行场景的生成,最终生成效果如图 6-10所示。

图 6-9 图 6-10
( 1)在 Photoshop中画出一个场景的色块涂鸦,如图 6-11所示。

图 6-11
( 2)打开 Web UI界面,进入“图生图”页面。选择麦穗写实大模型,在正向提示词框中输入 Jungle path(丛林路径),然后将画出的涂鸦导入,如图 6-12所示。

图 6-12
(3)设置重绘尺寸和采样方法等参数,如图 6-13所示。

图 6-13
(4)单击“生成”按钮生成图像,如图 6-14所示。

图 6-14 
最终效果如图 6-15所示。

图 6-15 

6.3使用 ControlNet辅助构图 
ControlNet插件专门用于控制预训练的图像扩散模型,它允许用户导入调节图像,并借助这些图像来引导和调整生成图像的过程。该插件能够依据多种输入,如线稿、深度图,以及姿势关键点等,实现对生成图像的精确控制。本例的最终生成效果如图 6-16所示。

图 6-16
(1)在 Photoshop中画出一个苹果的线稿涂鸦,如图 6-17所示。
( 2)进入 Web UI界面,首次尝试通过涂鸦控制来生成图像。在提示词框中输入 1 apple(一个苹果),设置“迭代步数”为 20、“采样方法”为 DPM++ 2M,同时设置生成画幅的尺寸为 792×464像素,其余参数保持初始设置不变,如图 6-18所示。

图 6-17 图 6-18
( 3)打开 ControlNet插件,勾选“启用”复选框,设置“控制类型”为 Scribble(涂鸦),上传提前画好的苹果线稿图像,如图 6-19所示。

图 6-19 
(4)单击“生成”按钮生成图像,如图 6-20所示。

图 6-20
最终效果如图 6-21所示,至此得到了一个使用 ControlNet插件生成的苹果图像。

图 6-21 

6.4使用 OpenPose辅助构图 
OpenPose是由卡内基梅隆大学感知计算实验室开发的强大的开源项目,它基于深度学习的方法,特别是卷积神经网络(CNNs)的模型,专注于提供实时的多个人体、面部和手部关键点检测的解决方案。本例的最终生成效果如图 6-22所示。
(1)找到 Control Net选项卡进行图像的导入,需要上传一张带有人物姿势的图像,如图 6-23所示。

图 6-22 图 6-23
(2)选择“控制类型”区域中的 OpenPose(姿态)控制器,并在“预处理器”和“模型”中选择姿态处理。勾选“允许预览”复选框,单击“预处理器”后面的


按钮进行预览,如图 6-24所示。



图 6-24 
(3)如果要进一步调整姿势,单击预览图像旁边的“编辑”按钮,然后进行进一步的编辑。在“编辑”页面中可以调整相应的骨骼结构,如图 6-25所示。

图 6-25
(4)调整好后单击“发送姿势到 ControlNet”按钮,即可完成姿态的处理。选择相应的大模型及 LoRA,调整相应的参数,即可进行姿态控制,如图 6-26所示。

图 6-26
(5)单击“生成”按钮生成图像,如图 6-27所示。

图 6-27 

6.5使用 3D Openpose辅助构图 
3D Openpose是 Stable Di.usion中的一款插件,用户在使用 3D Openpose前需要安装 3D Openpose插件。下面介绍使用 3D Openpose辅助构图的操作方法。
( 1)安装完成的 3D Openpose插件会在界面顶部的菜单栏中显示。打开“3D 骨架模型编辑( 3D Openpose)”页面即可呈现三维视图中的骨骼模型。用户可以通过调整各个骨骼的关键点(即支点)来定制所需的姿势,如图 6-28所示。

图 6-28
( 2)选中每个骨骼节点后会出现一个旋转球,允许用户通过选择不同方向来精确地控制其旋转,从而实现更细致的姿态调整,如图 6-29所示。

(3)通过精细地控制各个骨骼节点,成功构建了一个生动的奔跑状态姿势。做好了姿势之后单击上方的“生成”按钮生成图形,如图 6-30所示。



图 6-29

图 6-30
(4)此时观察到,系统已自动将刚调整的奔跑姿势保存为一张姿势图像。单击“发送到文生图”按钮,该图像即被传输至文生图的 ControlNet中。接下来即可使用姿势模型基于该姿势图像生成对应的图像,如图 6-31所示。

图 6-31 



Stable Diffusion综合实例 


Stable Di.usion在品牌符号设计、海报创作、人物插画与风格转换、高清图像修复与细节重塑、动画内容创作与视频后期编辑等诸多领域,以及在激发创意与灵感方面,均展现出了其广泛的潜能。它已不再局限于单纯的技术工具层面,而是蜕变成为一个能够激发无限创意与灵感的卓越平台。用户通过不断尝试与精细地调整提示词、参数设定及模型选择,能够解锁并挖掘出众多前所未有的图像风格与视觉效果。这一过程不仅极大地促进了个人审美能力的跃升与艺术修养的深化,更为跨领域的创意工作带来了鲜活灵感与珍贵借鉴。 
7.1AI在艺术字设计领域的应用 
AI在艺术字设计领域的应用日益广泛,其强大的算法和学习能力为艺术字创作带来了革命性的变化。以往,要实现具备层次感和文字与图像完美融合的复杂视觉效果,往往需要依赖于专业的 3D工具或对设计软件具备深厚的操作技能。然而,现今 Stable Di.usion的引入,使这一过程变得轻松、简单,能够直接助力用户实现多样化的创意视觉效果。接下来将通过具体的实例详细展示其制作流程,让读者更直观地了解其强大功能。 
7.1.1图像的导入与模式的选择
导入文字图像与选择模式的具体操作步骤如下。
(1)准备一张目标艺术字的文字图像,确保背景为白色、文字为黑色,如图 7-1所示。

图 7-1 
( 2)打开 Web UI界面,并打开 ControlNet插件,将事先准备好的白底黑字的文字图像拖入图像输入框内。然后勾选“启用”和“完美像素模式”复选框,以增强处理效果。若用户的计算机的显存资源有限,建议同时勾选“低显存模式”复选框,以优化性能,如图 7-2所示。

图 7-2
( 3)选择好适合的大模型及其对应的 VAE模型,然后在提示词输入框中根据期望输入相应的材质、场景、效果等描述。这里的提示词示例为 physically-based rendering, beautiful detailed glow,( detailed ice), house, train, snow.akes, in winter(基于物理渲染器的渲染效果,美丽的细节光晕,(细节丰富的冰),房子,火车,雪花,冬天),如图 7-3所示。

图 7-3 

7.1.2预处理器的选择
预处理器提供多种选项,每种选项都会带来不同的视觉效果。以下是具体操作演示。
( 1)若选择 depth_midas预处理器及其对应模型,按前述步骤生成后,可能会发现文字呈现出从背景平面凸起的效果,如图 7-4所示。
(2)若希望文字部分呈现凹陷效果,则无须在预处理器上进行特定选择,即可达到此效果,如图 7-5所示。

图 7-4图 7-5
(3)若要将文字自然地融入图像之中,首要目标是保持文字形态清晰呈现,此时推荐选用 Canny或 LineArt模型,并配以相应的预处理器,以实现文字与图像背景的和谐统一,如图 7-6所示。

(4)若追求文字的独特创意效果,可尝试使用 Invert预处理器的 Scribble模型。此模型对文字边缘的控制较为宽松,常能意外地生成趣味横生的视觉效果,如图 7-7所示。


不同控制权重、引导介入与终止时机对画面效果有显著的影响。权重增加,文字边缘愈发清晰精准;反之,降低权重则赋予形体更多自由度,但当权重过低时,对画面的影响趋于微妙,一般建议设置为 0.5~ 1。引导介入与终止时机则决定了 ControlNet何时开始及结束对图像生成的干预。提前介入并延迟终止,能让 AI创作更为自由不羁。至于具体效果,还需创作者亲自试验,以体会其微妙变化。


图 7-6图 7-7 


7.2AI在二维码商用设计领域的应用
在创作艺术二维码的过程中,使用 Stable Di.usion时,经常会引入两个全新的 ControlNet模型,即 Brightness(亮度)与 Illumination(光照)。其中, Brightness模型通过精细地调控图像内部的亮度分布,依据信息图巧妙地将特定的形体元素融入画面之中;而 Illumination模型则依据信息图,灵活地调整图像内部的相对明暗对比,从而模拟出逼真的光影效果,精准地呈现出特定的形状轮廓。这两种模型的引入,为艺术二维码的创作带来了极为丰富的视觉表现手段与无限的创意空间。 
7.2.1下载模型并生成原始二维码
下载模型并生成原始二维码的具体操作步骤。
( 1)下载 Brightness和 Illumination两个模型,可访问网址 https://huggingface.co/ioclab/ioc-controlnet/tree/main/models,如图 7-8所示。


7.2.2 生成艺术二维码
生成普通二维码后,通过 Web UI制作艺术二维码的具体步骤如下。
( 1)进入 Web UI界面,启动 ControlNet功能,将准备好的二维码图像拖入图像输入框内,同时勾选“启用”和“完美像素模式”复选框。若计算机的显存较低,可不选择预处理器,直接从 Brightness(亮度)模型和 Illumination(明度)模型中择一使用。为了确保二维码的可识别性,控制权重一般不低于 1,因此需要适当放宽引导介入和终止时机,以防止图像边缘过于生硬,如图 7-11所示。

图 7-11
若生成的图像难以识别二维码,可尝试通过降低引导介入时机或提高引导终止时机进行调整。
( 2)完成上述操作后,即可选择大模型及对应的 VAE模型,并输入正向提示词和负向提示词。本例中,正向提示词为 {{masterpiece}}、 illustration、 best quality、 extremely detailed CG unity 8k wallpaper、 original、 high resolution、 oversized documents、 portrait等,特别强调了 {{{extremely delicate and beautiful girl}}}(杰作、插图、最佳质量、极其精细的 CG统一 8K壁纸、原创、高分辨率、超大文件、肖像等,特别强调了极其娇嫩美丽的女孩),并细化了人物特征,如 1girl、 solo、 messy hair、 hair .owing in the wind、 blonde hair(女孩、独唱、凌乱的头发、随风飘动的头发、金发)等。为了让二维码内部的内容丰富,需要提高初始分辨率,此处设置为 768×768像素,如图 7-12所示。同时,使用深度控制、轮廓等设置进一步增强画面效果。

图 7-12 
然后单击“生成”按钮,最终效果如图 7-13所示。

图 7-13 


7.3AI在电商产品海报领域的应用 
AI在电商产品海报领域的应用日益广泛,其先进的算法与卓越的数据处理能力为电商产品海报的设计、制作及优化带来了颠覆性的变革。电商海报作为 AI设计的一大应用场景,不仅极大地降低了拍摄成本,还显著地提升了制作效率。本节将介绍美妆产品电商海报的设计流程,从使用 Midjourney工具创作引人入胜的产品背景图,到借助 Stable Di.usion技术精细地调整光影效果,全方位展示如何打造一款精美绝伦的电商海报产品图,从而提升海报的吸引力和市场竞争力。 
7.3.1用 Midjourney制作产品背景图
通过 Midjourney制作产品背景图并与产品图简单融合的具体操作步骤如下。
(1)准备好需要融入背景的产品图素材。为了使产品图更好地与背景环境融合,同时排除其他因素的干扰,创作者需要先对产品图进行简单的抠图处理。以口红为例,在抠图完成后,将得到一个带有透明背景的图像,便于后续的背景拼合操作,如图 7-14所示。

(2)打开 Midjourney,为了将产品与背景完美融合,创作者需要生成一张富含红色元素且能体现口红质感的空景图。这里使用的提示词是 lighting, embracing minimalism. The soft light and shadow 



图 7-14 play together, creating a dreamy atmosphere. Professional color correction
is applied to ensure the image maintains its super detail. The .nal product is a high-resolution, HD 
photograph, even up to 8K, that captures the essence of the scene in stunning detail(在摄影领域,采用顶视图对准纯色干净背景,可营造超现实效果。设想一个场景,聚焦前景中摆放着一张奶油色木桌,桌上点缀着精致花朵与一簇草。灯光追踪技术与室内工作室照明强化了场景的柔和色调,融合了极简主义风格。柔和的光影相互交织,营造出梦幻氛围。应用专业色彩校正,确保图像保持超高细节。最终成品为一张高分辨率的高清照片,甚至可达 8K,以惊人细节捕捉场景精髓)。选择喜欢的图像进行放大,若不满意,可单击右侧的蓝色按钮生成更多选项,或调整提示词以获取理想效果,如图 7-15所示。
( 3)将背景和产品进行拼合,调整口红的比例和位置,这一步只需要简单地将其放在一起即可,如图 7-16所示。

图 7-15 图 7-16 

7.3.2用 Stable Diffusion处理光影效果
通过 Stable Di.usion进行光影处理,能够显著地提升产品与背景的融合度,具体操作步骤如下。
( 1)打开 Stable Di.usion,进入“图生图”页面,将已拼合好的图像拖曳至图像框内,如图 7-17所示。

( 2)在 ControlNet的界面中,首先在第一个和第二个图像框中分别载入图像。然后选择 SoftEdge(软边缘)预处理器和 Depth(深度)预处理器,并确定对应的模型(注意,预处理器有多种选择,使用 Tile或 Lineart也能实现类似效果),如图 7-18所示。



图 7-17

图 7-18
将 7.3.1节中关于 Midjourney的背景提示词复制过来,并在其中融入 appropriate light and shadow(适当的光影)、 light shadow re.ection(光影反射)、 shadow(阴影)、 cosmetic(化妆品)、 lipstick(口红)这些提示词,以确保在图像生成的过程中能够同时添加光影效果,如图 7-19所示。

图 7-19 

图 7-19(续)
( 3)“迭代步数”可适当增加,以提升细节的丰富度,同时确保宽度和高度与原图保持一致。“重绘幅度 ”通常设置为 0.3~ 0.5。若融合效果不佳,可适当调高 “重绘幅度”;若生成的图像与原图差异显著,可以使用 Photoshop等后期处理软件,在保留光影效果的同时,通过调整来避免产品图变形或画质下降,进而调整重绘幅度。单击“生成”按钮,筛选出满意的图像,如图 7-20所示。



7.4AI在游戏服装设计领域的应用
借助 Stable Di.usion的 ControlNet插件,设计师在人物动作、空间布局及光影效果等关键方面实现了前所未有的高度可控性,这一突破极大地扩展了设计创作的边界。在游戏服装设计领域,设计师只需输入基础参数或风格导向, AI系统便能迅速响应,生成多样化的设计方案。这种智能草图生成技术不仅显著地提升了设计效率,还实现了设计师与 AI系统的即时互动,使得设计师能够依据实时反馈灵活地调整并优化设计,直至达到理想效果。
为了更进一步地实现特定风格图像的定制化生成,通常会融入 LoRA模型。然而,构建此类模型往往需要庞大的训练数据集作为坚实的支撑,这对许多设计师而言是一大挑战。幸运的是, Midjourney平台为创作者们提供了海量的无版权素材资源,有效地缓解了数据集的获取难题,为设计师们打开了通往无限创意的大门。
接下来,以使用 Midjourney平台设计的创意服装为基础,详细展示如何生成一个可由Stable Di.usion调控的 LoRA模型。这一设计思路的实施过程将充分展现 AI技术如何与设计师的创意灵感相结合,共同推动游戏服装设计领域的创新与发展。 
7.4.1用 Midjourney制作服装素材
通过 Midjourney可以创作出大量可供使用的无版权服装训练素材,以下是具体的操作步骤。
( 1)为了使设计的服装既富有想象力又具有真实感和摄影质感,首先需要在设置中选用当前最新的正常模型,如图 7-21所示。

图 7-21
( 2)以一位站在长城之上的中国女将军身着的创意服装为例,描述语为 A Chinese female general wearing red armor is on the Great Wall of China(一位身穿红色盔甲的中国女将军站在长城之上),如图 7-22所示。

图 7-22
生成效果如图 7-23所示。
( 3)训练模型至少需要 20~ 30张素材图像。为了高效地产出大量素材,可以使用 repeat后缀指令实现自动批量生成。在 repeat指令后加空格再输入数字,该数字代表生成的批次,上限值为 10,即单条指令最多可设置同时生成 10批。在添加 repeat指令后,系统将弹出提示,单击 Yes按钮即可开始生成,如图 7-24所示。

图 7-23

图 7-24 
( 4)生成完成后,挑选出符合需求的 20~ 30张素材进行放大并保存,如图 7-25所示。

图 7-25 

7.4.2用 Stable Diffusion训练服装模型 
Stable Di.usion能够将用 Midjourney设计的创意服装素材训练成可控的 LoRA模型,以下是训练服装模型的具体操作步骤。
( 1)打开 Stable Di.usion,并切换到 “WD 1.4标签器 ”页面。选择 “批量处理文件夹”,然后将已整理好的素材图像文件路径粘贴到相应位置,同时勾选“使用 glob模式递归搜索”和“删除重复标签”复选框,以确保处理效率和准确性,如图 7-26所示。

( 11)启动 Stable Di.usion后,为了测试模型的泛用性,可将提示词中的 outdoors改为 indoors。接着选择刚创建的 LoRA模型,将模型名称中的数字替换为 NUM(或其他自定义名称),并将 STRENGTH作为强度参数进行设置,如图 7-36所示。



图 7-26 




图 7-35

图 7-36
( 12)在脚本扩展区域,将 X轴和 Y轴类型均设置为 “Prompt S/R”。 X轴的值为已有模型的数字名, Y轴的值一般设定为 0.6~ 1,两者均需要用英文逗号分隔。然后单击“生成”按钮, AI将自动启动批量处理流程,如图 7-37所示。

图 7-37 
最终将生成如图 6-25所示的 XY轴对比图像,从中选择最优模型即可,如图 7-38所示。

图 7-38 


7.5AI在动漫设计领域的应用 
AI在动漫设计领域的应用日益深化,其强大的算法与数据处理能力为动漫创作领域带来了颠覆性的变革。凭借用户输入的参数或描述,AI软件能够自动生成独具特色且细节丰富的动漫角色,这些角色不仅个性鲜明,还能根据性格特征自动生成相应的表情与动作。例如 Artbreeder、GANPnt Studio等 AI软件,更是允许用户通过混合与匹配不同图像元素,创造出独一无二的动漫角色与头像,极大地节省了艺术家的时间与精力,同时也为创作者提供了源源不断的灵感源泉。
AI技术在动漫场景布局自动生成方面也展现出了非凡的能力,包括背景、道具等元素的智能化生成,使得动漫制作更加高效,大幅度降低了人工绘制场景的工作量。更值得一提的是, AI技术还能根据剧情需求自动生成与角色和情节高度契合的背景,从而显著地提升动漫的整体视觉效果。在《哪吒之魔童降世》《大鱼海棠》以及《白蛇 :缘起》等备受瞩目的动漫电影中, AI绘画技术被广泛应用于人物塑造与场景设计,为影片增添了无限光彩。
在使用 Midjourney进行动漫效果图的设计时,设计师们常会遇到这样一种困境:图像构图与线条虽出色,但颜色控制却成为一大难题。 Stable Di.usion技术的引入能够基于同一线稿生成多种色彩方案,并稳定控制边缘,与 Midjourney相结合,有效地解决了这一困扰。此外,设计师还能通过为手绘线条草稿上色渲染,迅速制作出立体、生动的动漫效果图。接下来将以熊猫动漫角色为例,详细展示这一结合 AI技术的动漫设计流程。 
7.5.1用 Midjourney制作线稿
使用 Midjourney可以创作出线条风格的动漫角色,以古装大熊猫为例,具体操作步骤如下。
( 1)打开 Midjourney,并输入描述语 A giant panda wearing an ancient costume drawn with black and white lines, with a white background and black and white sketch style(一只穿着古装的大熊猫,用黑白线条绘制,白色背景,黑白素描风格),如图 7-39所示。
( 2)挑选出满意的图像进行放大,并保存下来,如图 7-40所示。

图 7-39 图 7-40

7.5.2 用 Stable Diffusion上色
使用 Stable Di.usion可以为 Midjourney生成的线稿增添 3D效果,并进行灵活的上色处理,具体操作步骤如下。
( 1)打开 Stable Di.usion,将之前生成的线稿图放入 ControlNet的图像框内。勾选“启用”和“完美像素模式”复选框,在“预处理器”中选择 Lineart或 Canny,并选择对应的模型,以确保线条的精准识别和增强,如图 7-41所示。

(2)在界面上方,从大模型列表中选择 revAnimated,并附加相关的 3D效果 LoRA模型。调整尺寸,以匹配原图,并可以增加批次数量,以一次性生成多张图像。最后单击“生成”按钮,如图 7-42所示。



图 7-41

图 7-42 
此时,创作者可以预览到多种上色效果,如图 7-43所示。

图 7-43 


7.6AI在商业插画领域的应用
商业插画的应用领域极为广泛, AI技术的引入更是为其增添了无限可能。 AI能够精准地捕捉市场需求与消费者偏好,迅速锁定插画的主题与整体风格,无论是追求前卫的科技感,还是营造梦幻的浪漫色彩,都能为创作提供清晰而明确的方向。借助 AI技术,设计师能够轻松挥洒创意,打造出引人入胜的广告插画,极大地提升广告的视觉冲击力,从而成功吸引消费者的目光。 
AI插画不仅能精准地传达广告信息,更在增添广告的趣味性和互动性方面展现出卓越能力,从而有效地提升广告的转化率。通过结合 Midjourney和 Stable Di.usion等先进工具,设计师能够迅速地构建出符合商业需求的插画模型。此外,借助其他 LoRA模型或 ControlNet插件,设计师还能对插画进行多样化的可控调整及风格化处理,进一步满足多元化的商业需求,实现插画创作的个性化与定制化。 
7.6.1用 Midjourney制作商业插画训练素材
使用 Midjourney制作商业插画训练素材的步骤如下。
( 1)以扁平插画为例,输入描述语 Cute girl, economist working on .nancial and marketing project in modern o.ce Notion, Minimalist, Character vector, white background(可爱的女孩,在现代办公室从事金融和营销项目的经济学家,极简主义,字符矢量,白色背景),如图 7-44所示。

图 7-44
( 2)等待生成结果,效果如图 7-45所示。
( 3)训练模型至少需要 20~ 30张素材图像。为了高效地生成大量素材,可以使用 repeat后缀指令实现自动批量生成。在 repeat指令后添加空格及数字,其中数字代表要生成的批次,上限值为 10,即一个指令最多可同时生成 10批图像。在添加 repeat指令后,系统会显示确认提示,单击 Yes按钮即可开始生成,如图 7-46所示。

图 7-45

图 7-46 





图 7-56 图 7-57 

7.7.2用 Stable Diffusion丰富纹理细节
使用 Stable Di.usion,可以在 Midjourney生成的商业图像的基础上进一步丰富其纹理与细节。以下是具体操作步骤。
( 1)打开 Stable Di.usion,并打开“文生图”页面下方的 ControlNet插件,将之前保存的图像拖入相应的选项卡中。在“预处理器”中选择 tile_resample,同时适当调低“引导终止时机”的值为 0.8,为 AI留出更多自由发挥的空间,如图 7-58所示。

图 7-58
( 2)选择一个真实类别的大模型,并输入提示词,这些提示词可以直接采用 Midjourney中的提示词,如图 7-59所示。对于负向提示词,使用一些通用的即可。此外,还可以添加一个用于调整细节的 LoRA模型(需要创作者自行从模型库中下载)。

(3)通过提高“迭代步数”来增加图像的细节,并调整尺寸,以与原图保持一致,然后单击“生成”按钮,如图 7-60所示。

(4)生成的图像在保持原图基本构造的同时增添了丰富的纹理和其他细节,使得画面更加生动和丰富,最终效果如图 7-61所示。



图 7-59

图 7-60 图 7-61 


7.8AI在商业风格转化领域的应用 
AI在商业风格转化领域的应用日益增加,其强大的算法核心与数据处理能力为商业风格的迅速变迁与创新提供了坚实的支撑。AI凭借其对市场动态与消费者偏好的敏锐洞察,能够迅速锁定商业风格的主题与整体氛围。借助深度学习算法的深厚功底,AI能够剖析海量的艺术作品与商业实例,精准地提炼出各类风格的独特元素与标志性特征,从而实现风格的瞬间转换。举例来说,AI能够将一张平凡的商业图像变成古典韵味、现代气息或科幻色彩浓郁的图像,充分满足用户对于个性化定制的多元化需求。
以当前备受人们追捧的迪士尼风格为例,Midjourney能够轻松驾驭这一风格,生成充满童趣与梦幻的图像。然而,在没有相关模型支持的情况下,Stable Di.usion难以达到相似的视觉效果。另一方面,仅仅依赖 Midjourney难以实现对画面元素的精细把控。本节将深入探讨如何巧妙地融合 Midjourney与 Stable Di.usion的优势,将普通的真人照片转化为充满迪士尼动漫风格的图像,为用户带来前所未有的视觉盛宴。
7.8.1 用 Stable Diffusion生成摄影风格角色
打开 Stable Di.usion,首先选择适合的真实类别大模型。在输入提示词时,除了正向、反向描述外,还可以加入与相机参数或摄影相关的关键词,如 MP-E、macro、65mm、f/2.8等,以增强图像的摄影感。然后设置期望的尺寸和采样器,单击“生成”按钮,如图 7-62所示。

图 7-62 

7.8.2用 Midjourney转化为迪士尼风格角色
通过 Midjourney将 Stable Di.usion生成的真人图像转化为迪士尼动漫风格,具体操作步骤如下。
(1)打开 Midjourney,将刚才从 Stable Di.usion生成的图像链接直接粘贴到输入框中,按 Enter键发送,如图 7-63所示。
(2)右击,在弹出的快捷菜单中选择“复制链接”选项,以备后续使用,如图 7-64所示。

图 7-63 图 7-64
(3)在 Midjourney中,采用“原图链接 +人物描述 +风格”的格式输入提示词。注意,原图链接后需要空两格,否则 Midjourney会报错。关于迪士尼风格的提示词,可以包括 3d 
character from Disney,super detail,eye detail,gradient background,soft colors,.ne luster, blender,soft lighting,anime,art,ip blind box,divine,cinematic edge lighting。此外,还可以通过后缀 --iw来调整生成图像与原图的相似度,其值的范围为 0~ 2,值越大则参考原图越多,如图 7-65所示。
(4)挑选出符合要求的图像进行放大并保存,如图 7-66所示。

图 7-65 图 7-66