第1章 AI通识 AIGC(AI Generated Content)是继专业生产内容(PGC)和用户生产内容(UGC)之后的新型内容创作方式,即人工智能生成内容,又称“生成式AI(Generative AI)”。 AIGC 正如其名,其实是由Al创作生成内容,并进行自动化生产,极为高效。最近非常火的ChatGPT与AI绘画,亦源于其中。 1.1 星空歌剧院,创意及荣誉归属之争 在历史长河中,人类进化的整个进程需以“万年”为单位。而人类文明从初现端倪到建起宏伟广袤的艺术殿堂,需以“千年”为单位。 然而,“AI艺术家”以令人惊叹的速度完成进化,并闯入到我们视野中,却是以“分钟”为单位。 2021年冬,美国的OpenAI实验室推出了一项名为DALL·E的技术,它能通过自然语言生成逼真的图像和艺术作品。 2022年春天,“达利二代(DALL·E 2)”再度问世。这一次,它生成的图像更为真实细腻,分辨率提升了4倍,艺术的味道和氛围也更加浓郁。 2022年秋天,人工智能创作的艺术作品已然不逊色于人类。在美国科罗拉多州博览会的年度艺术大赛上,参赛者杰森·艾伦(Jason Allen)在新兴艺术家组别的“数字艺术/数字操纵摄影”类别中,凭借作品《太 空歌剧院》获得了第一名,如图1-1所示。而这幅作品是通过一款名为Midjourney的AI绘画工具生成的。《太空歌剧院》作为第一件获得此奖项的人工智能绘画作品,引发众多艺术家的激烈抵制。而且除去在社交媒体上公开表示抵制之外,激动的艺术家们又开始在网络上大量删除自己的作品,试图减少“被AI剽窃”的机会。 事件持续发酵后,一场介于人类艺术创作者和AI绘画创意者之间旷日持久的争论和思辨展开:AIGC产物到底算不算艺术? 图1-1 《太空歌剧院》 杰森·艾伦(Jason Allen) 许多艺术家同行认为这是“钻规则空子”,他们觉得这幅作品的获奖加速了创造性工作的消亡。虽然Jason Allen 坚称自己没有破坏任何规则,他用了一个月的时间不停地修改输入软件的提示词,使用绘图软件调整近千次,最终从中选出最喜欢的三张进行后期处理。不过,这种解释也受到了部分艺术爱好者的嘲讽。 AI绘画究竟是不是艺术,算不算真正的创作?历史上,人类曾有过类似的探讨,时钟拨回19世纪,这场探讨的主角是查尔斯·皮埃尔·波德莱尔(Charles Pierre Baudelaire),一位活跃在19世纪的法国诗人、艺术评论家和译者,他的作品在世界文学史上占有重要的地位。 波德莱尔本身和摄影没有关系,他在艺术哲学领域的贡献产生的影响更加深远。尽管他本人并没有直接参与到摄影这一新兴艺术形式的创作中,但他对摄影的理解和看法对于摄影艺术的发展有着深远的影响。波德莱尔在《1859年的沙龙》(Le Salon de 1859)发表了一篇文章,名为《现代公众与摄影术》,如图1-2所示。 图1-2 《1859年的沙龙:现代公众与摄影术》 波德莱尔 波德莱尔的主要观点如下。 “摄影业成了一切平庸画家的庇护所!” “摄影在群众的愚蠢中找到了它天造地设的伴侣!” “这个行业(摄影),通过入侵艺术的领土,已成为艺术界最不共戴天的敌人!” “摄影的真正职责,是‘成为科学和艺术的婢女’!” 用一句最直白的话作为总结—多么无能的画师,才要去搞摄影?多么愚蠢的群众,才会接受摄影?这就是波德莱尔和当时主流社会对摄影的看法。 60年后,当阿尔弗雷德·斯蒂格利茨(Alfred Stieglitz,1864—1946)、保罗·斯特兰德(Paul Strand,1890—1976)、亨利·卡蒂埃·布列松(Henri Cartier-Bresson,1908—2004)等一代代摄影大师用一件件传世摄影珍品向世人展示摄影艺术之美时,当摄影展、摄影大赛已成为日常生活的一部分时,似乎已经没有人再去质疑“摄影是不是艺术”,反而会质问:“摄影为什么不是艺术?” 如果将当年波德莱尔对摄影的态度,替换今天对AI的态度,又会怎样? “AI绘画成了一切平庸设计师的庇护所!” “AI绘画在群众的愚蠢中找到了它天造地设的伴侣!” “这个行业(AI绘画),通过入侵艺术的领土,已成为艺术界最不共戴天的敌人!” “AI绘画的真正职责,是‘成为科学和艺术的婢女’!” 正确看待并接纳摄影技术,人类用了60年。面对汹涌而来的AI浪潮,这一次需要多少年? 1.2 神笔马良或神笔AI?了解AI绘画原理 人工智能(Artificial Intelligence,AI)指的是使计算机系统具备模拟人类智能过程的能力,以执行特定的任务,如语言理解、学习、推理和问题解决等。AI领域的终极目标是创建出能够自主完成复杂任务的系统和应用,从而模仿或超越人类的智能。 AI的历史可以追溯到20世纪40~50年代。1943年,沃伦·麦卡洛克和沃尔特·皮茨首次提出了人工神经网络的概念。1950年,艾伦·图灵提出了著名的“图灵测试”,旨在测试机器是否能够展现出与人类不可区分的智能行为。1956年,计算机科学家约翰·麦卡锡(John McCarthy)等若干科学家共同举办了第一次达特茅斯会议,正式确立了“人工智能”这个术语,并启动了现代AI研究的旅程,如图1-3所示。 图1-3 达特茅斯会议与人工智能创始人 尽管AI历经几次热潮和寒冬,但随着大数据、计算能力和算法的不断进步,AI如今已成为科技发展的前沿领域,引领着无数的创新和变革,且在各行各业都开始显示出其强大的潜力和影响力。 人工智能生成内容又称为AIGC,是指利用人工智能技术自动化生成文字、音乐、图像或视频等内容的过程,如图1-4所示。在AIGC的背后是一系列复杂的算法和模型,如深度学习和自然语言处理技术。这些算法可以训练计算机系统,使其能够理解和模拟人类的创造过程,从而生成富有创意和价值的内容。 提示词:copyright,aigc 图1-4 Midjourney软件生成的图像 常见的AIGC应用是自动文章或报告生成。通过分析大量的数据和信息,AI系统可以自动撰写新闻报道、市场分析报告或其他类型的文档,极大地提高了内容生成的效率和速度。此外,AIGC还广泛应用于音乐、艺术和娱乐产业,如自动作曲和视频生成。 然而,AIGC也面临着诸多挑战。内容的原创性和质量是评价AIGC成功与否的关键因素。为确保生成内容的质量和相关性,AI系统必须进行大量的训练和优化,以更好地理解和满足用户的需求和期望。 AIGC正逐步改变我们的内容生产和消费方式,它让内容生成变得更加智能化、高效和个性化,展现出巨大的潜力和价值。 人工智能图像生成(Artificial Intelligence Image Generation,AIIG)是利用人工智能(AI)技术创建或修改视觉图像的过程。借助深度学习和生成对抗网络(Generative Adversarial Network,GAN)等尖端技术,AIIG可以生成高分辨率和逼真的图像,包括人脸、风景和艺术作品等。在AIIG中,模型通常经过大量图像数据的训练,以学习和模拟图像的各种属性和特征。通过这种学习,AI可以理解和复制不同的艺术风格,生成新的、原创的图像,或者对现有图像进行修改和增强。AIIG已被广泛应用于电影制作、视频游戏、虚拟现实和许多其他领域,为内容创建者提供了强大的工具,实现了以前难以想象的创意和效果。 1.2.1 神经网络与深度学习:揭示AI绘画的核心技术 1. 关于神经网络 神经网络是模拟人脑神经细胞工作机制的一种数学模型。它试图使用数学语言来诠释人脑中数十亿神经细胞之间复杂的互动关系,使计算机得以“学习”和“思考”。 (1)神经元与权重。 神经网络的基本单元是神经元。若将神经元比作一个接收和处理信息的小工厂,各神经元通过“突触”相连,信息通过这些连接传递。在神经网络中,突触的作用由权重来模拟。权重决定了信息传递的强弱,如同调节信息流量的阀门。 (2)激活函数。 每个神经元接收到的信息会累加并通过激活函数处理。激活函数决定了神经元是否被“激活”,从而输出信息到下一层。就像工厂的检查员,确保只有合格的产品才能流向下一个流程。 (3)神经网络的层级结构。 一个标准的神经网络模型包含输入层、隐藏层和输出层。信息在各层之间流动,像是在一个精密的生产线上经过各环节,不断被加工和优化,如图1-5所示。 图1-5 神经网络输入层、隐藏层、输出层示意图 (4)关于神经网络的类比理解。 再次想象,我们面前有一个巨型果园,如图1-6所示,它就像是一个神经网络。 图1-6 想象中的果园(由DALL·E3生成) 我们进入果园的最终目标:从果园中挑选出最好的水果。 挑选水果需要经历三个步骤:获取苹果信息、决策判断、完成挑选。为方便理解,接下来通过示意图进行类比对照,如图1-7所示。 图1-7 选出心仪苹果三步走 第一步,我们来到市集入口,这里水果摊档林立,摊贩热情招呼,各式鲜果竞相展现风采。这一步您要做的,就是通过眼睛、鼻子,还有手快速收集信息:观察它们的色泽,闻它们的香气,触摸它们的皮肤(果皮)。如同神经网络的输入层接收外界各种信号,准备交给下一步做运算处理。 第二步,在心中用刚才获得的初步信息进行第一轮粗筛:那些明显不新鲜的、大小不符合您期望的,或者外观有损的水果,毫不犹豫地首先排除掉。这一步如同神经网络中的第一个隐藏层。此时,您的大脑包含着无数权重(经验)的神经元网络,通过激活函数(直觉)的作用,处理并筛除掉那些不符合要求的选项。 第三步,进入选择的深层次,开始细致地评估每个水果的内在品质。您尝一小口以判断甜度,您挑选那些位于枝头阳光照射充足部分的水果,因为它们往往更甜、更成熟。这个阶段就像是神经网络中的第二个隐藏层。在这一层,您的决策过程变得更加复杂,选择标准更加精细,筛选出来的将是那些最符合您口味和质量标准的佼佼者。 在这个过程中,每一个隐藏层都承担着不同的任务,第一层负责初步筛选,第二层则进行更为深入的品质判断。这些层级联合起来,形成了一个复杂的决策和思考链条,正如神经网络通过多层的处理来提取信息、做出判断,最终得到我们想要的结果。 最终,当您离开市集时,篮子中装满了您精心挑选的水果。每一个水果都是您经过多重考量、多次决策的结晶。这个最终的篮子,就像是神经网络的输出层,它展现了您决策过程的成果,也反映了您筛选能力的精准度。 每一次挑选,您的决策模型都在微妙地进化,就像神经网络通过不断训练自己的权重和激活函数,以做出更为准确的预测和选择。在这复杂而微妙的过程中,不仅是您对市集的水果变得越发了解,神经网络也在每一次的训练中变得更加精确,两者都在不断学习,不断进步。 2. 关于深度学习 深度学习是神经网络的一个子领域,主要关注的是构建和训练深度神经网络。深度神经网络包括多个隐藏层,可以处理更复杂、更高维度的数据,适合于图像识别、自然语言处理和游戏策略等多种任务,如图1-8所示。 图1-8 人工智能、机器学习、深度学习三者的“知识关系” (1)架构。 深度学习的网络架构通常比较复杂,包含多个隐藏层和大量的神经元。这种架构可以从原始数据中抽取出更高层次的特征。 (2)训练。 深度学习网络的训练通常依赖大量的标记数据和强大的计算能力。通过反向传播和梯度下降等算法,不断调整网络权重,优化网络性能。 (3)关于深度学习的类比理解。 尤瓦尔·赫拉利在《人类简史》中的核心观点为“人类之所以能从远古时代到今天,持续创造出辉煌璀璨的文明,核心动力在于‘以想象力为驱动’。”图1-9所示的是AI将它所理解的“深度学习”以具象化图形方式展示。 图1-9 AI所理解(想象)的深度学习 接下来,跳出通俗的比喻方式,我们使用计算机科学的逻辑来理解机器学习和深度学习的概念。 在机器学习中,算法通过分析和学习数据集来构建模型,这使得计算机能够做出预测或决策。这种方法的关键在于,计算机不需要由程序员提前编写具体的决策规则或指令。相反,机器学习算法使得计算机能够基于数据自动发现如何完成特定任务,例如识别图像中的对象或预测未来趋势。这样,计算机可以自主学习并适应新数据,而不是依赖于硬编码的规则。 深度学习是机器学习的一个高级分支,它依赖于被称为人工神经网络的复杂结构。这些神经网络包含多个层次,每个层次都由众多“神经元”组成,它们相互连接并处理数据。深度学习的核心在于能够自动从数据中提取和学习复杂的特征和模式。 在深度学习中,不需要程序员预先定义如何处理或解释数据。相反,网络通过大量的数据训练自己,自动学习如何识别和解释复杂的模式和特征。这种自我学习的过程允许计算机执行高度复杂的任务,如图像识别、语音转文字和自然语言理解。 例如,在图像识别中,深度学习模型可以自行学习如何识别不同的物体,而不需要人为地告诉它每个物体的具体特征。模型通过分析成千上万的图像,逐渐理解和识别各种形状、颜色和纹理。这种学习方式使得深度学习特别适合处理那些需要高层次抽象和推理能力的复杂任务。 以上分别使用了“果园比喻”和计算机科学专业术语两种方式介绍机器学习和深度学习的概念,以帮助读者更加深刻地理解AIGC。 1.2.2 生成对抗网络:探寻艺术与科技的共生之道 1. 关于生成对抗网络 生成对抗网络(Generative Adversarial Network,GAN)是一种强大的机器学习模型,由计算机科学家伊恩·古德费洛(Ian Goodfellow)于2014年提出。GAN包括两个部分,分别为生成器(Generator)和判别器(Discriminator)。 生成器:其任务是创建新的数据实例。在训练过程中,生成器尝试创建看起来与真实数据相似的数据。 判别器:其任务是区分生成的数据和真实的数据。它尝试识别出生成器生成的数据。 生成器和判别器在训练过程中进行对抗。生成器尝试创建越来越真实的数据,判别器则尝试越来越精确地识别出生成的数据。这个过程通过不断迭代,直到生成器生成的数据无法被判别器区分。 2. GAN对AIIG的作用和意义 读者可以想象一下,自己正在观看一场艺术大师(生成器)和艺术鉴赏家(判别器)的对决。在这场对决中,艺术大师(生成器)的任务是创作出一幅幅画作,而艺术鉴赏家(判别器)的任务是判断这些画作是否为真正的大师之作。 (1)艺术的对决。 艺术大师(生成器)试图用他的技巧和创意去迷惑艺术鉴赏家。每创作一幅画作,艺术鉴赏家(判别器)都会进行评价,指出画作中不真实的地方。 (2)不断进步。 通过艺术鉴赏家(判别器)的反馈,艺术大师(生成器)不断地完善自己的技巧,使得自己的画作越来越真实、越来越富有艺术感。与此同时,艺术鉴赏家(判别器)也在不断地学习和提升,变得越来越敏锐。 (3)达到高峰。 经过一系列的对决后,艺术大师(生成器)的画技已经趋近于完美,即使是经验丰富的艺术鉴赏家也无法轻易地分辨出画作的真伪。在这个阶段,我们可以说艺术大师(生成器)成功地掌握了绘画的艺术。 (4)在AI绘画中的意义。 在AI绘画领域,生成对抗网络就像是这场艺术大师(生成器)和艺术鉴赏家(判别器)的对决。生成器不断尝试创作出真实和引人入胜的艺术作品,判别器则不断尝试分辨出这些作品的真伪。通过不断训练和对抗,生成对抗网络能够生成越来越真实、越来越富有艺术感的作品。 在人工智能绘画领域,生成对抗网络的应用越来越广泛。它不仅可以创建出高质量的艺术作品,还可以为艺术家提供灵感和辅助,推动艺术创作进入一个新的维度。通过生成对抗网络,人工智能和艺术的融合将会越来越紧密,为我们的生活和文化创造出无限的可能性和价值。 1.2.3 来自“咒语”Prompt的神秘驱动力 Prompt可以理解为触发AI模型响应的提示词或短语。它们在AI的训练和应用过程中起到了极为重要的作用。Prompt激发了模型的思考,唤起其学到的信息,并引导它按照某种预定的方式进行回应。 以大语言模型ChatGPT为例,其通过在巨大的文本语料库上进行预训练,学习到了语言的基础结构、概念间的关联,以及词语的语义信息。在生成文本时,Prompt就像是指路的明灯,指引着模型沿着某个特定的思考方向前进,从而生成与Prompt相关的、逻辑连贯的文本内容。 在人工智能绘画领域,Prompt的运用也显得极为精妙。当用户向AI绘画工具提出“请为我画一片星空”的要求时,它可能展现出一幅宽泛的、包含星星的天空图景。然而,当Prompt变得更为精确时,例如“为我绘画一片由蓝紫色调构成的、闪烁着各种大小星星的星空”,收获的将是一幅更加贴合心意、充满艺术感的作品。其中,Prompt就像是一位沟通我们与机器的“翻译官”,准确传达了我们的期待和渴望。 接下来看一组案例。 星空一如图1-10所示。 提示词:totally dark night sky by the sea, dslr, extremly long shot --ar 16:9, 图1-10 星空一 星空二如图1-11所示。 提示词:night sky by the sea Matt Molloy, long exposure, polar aurora, side shot of hiking couple, sitting, dof, low angle shot, dslr, extremly long shot --ar 16:9 图1-11 星空二 星空二与星空一相比,画面内容更加丰富,因为其使用了更多、更详尽的提示词。驱动人工智能进行创作。这些提示词在整个过程中并非只是一个启动码,更是一种带领我们跨越数字与现实、连接艺术与科技桥梁的核心元素。 1.3 AI绘画的法律挑战与困境 一方面,眼见AI绘画算法日渐成熟,传统画师纷纷开始怀疑自己的努力是否还有意义—毕竟只需要告诉AI“油画,毕加索风格”就可以,而不再需要投入以年为单位的油画学习时间;另一方面,AI绘画创作者以强劲势头席卷而来,开始迅速抢占市场和用户的注意力。 每一次生产力级别的技术的进步和变迁,必然会引发巨大影响和争议。代表传统绘画的一方应该何去何从?AI绘画这颗创意新星是否“戴着镣铐,约束起舞”? 1.3.1 AI绘画与传统绘画的交融碰撞 在AIGC时代的大背景下,科技与艺术交融,AI绘画作为一种新兴的艺术形式,如春笋般涌现,引领着人们进入崭新艺术纪元。不仅是绘画领域,AIGC已近乎在人类所有领域大放异彩。同时,我们也不应遗忘传统绘画所持有的深厚文化与历史底蕴。两者间的关系和区别成为我们值得探讨和思考的话题。 1. AI绘画与传统绘画的明显区别 (1)创作过程的差异。 AI绘画与传统绘画在创作过程上有着本质的不同。传统绘画是人类艺术家通过对自然、生活的感悟,借助于画笔和颜料,把自己的情感、理念、哲学观念等投射在画布上的过程。传统绘画包含着艺术家对世界的个人理解和感受。相较之下,AI绘画则是通过算法和机器学习,根据大量的艺术作品数据,生成具有特定风格和主题的画作。 古斯塔夫·克林姆特(德语:Gustav Klimt,1862年7月14日—1918年2月6日)《吻》如图1-12所示,原作创作于1907~1908年,现收藏于奥地利美景宫美术馆。 图1-12 《吻》克林姆特 (2)风格和技术的区别。 AI绘画能够模仿不同的艺术风格,包括一些复杂的绘画技法,它能在短时间内完成作品的创作,节省了大量的时间和精力。传统绘画则更注重个人独特的艺术风格和技巧的展现,艺术家通过长时间的练习和探索,最终形成自己的艺术语言。 图1-13所示是由AI创作的作品,调用了古斯塔夫·克林姆的画风。 提示词:mother and baby, Paintings by Klimt, gold, sparkle, museum collection --ar 3:4 --v 5 图1-13 AI仿克林姆特风格《母亲的吻》 2. AI绘画普及后对传统绘画的影响 (1)市场和就业的冲击。 AI绘画的普及无疑会对传统绘画市场和从业者产生一定的冲击。AI可以更快速、高效地完成绘画作品,降低了创作的门槛和成本。这一现象可能会引起传统画作市场的饱和和从业者就业的压力。 (2)艺术创作的多元化。 尽管有所冲击,但AI绘画的出现也推动了艺术创作的多元化发展。它挑战了人们对艺术和创作的传统认知,让更多人有机会接触和参与到艺术创作中来。 1.3.2 AI绘画与法律法规的碰撞和共生 1. 我国相关法律法规 (1)AI第一写作案始末。 2018年8月20日11时32分,股市收盘仅2分钟,腾讯证券就完成一篇股评文章,名为《午评:沪指小幅上涨0.11%报2671.93点 通信运营、石油开采等板块领涨》,正文内容共计949个字。 这篇文章是由腾讯机器人Dream Writer自动撰写的,也就是“人工智能生成内容”。 腾讯给DreamWriter的定义:一套基于数据和算法的智能写作辅助系统,于2015年8月开发完成,每年能够用它完成大约三十万篇作品,主要用于应对需要播报关键业务数据、不需要复杂分析的通报类稿件生成。 但是这篇文章竟然被网贷之家一字不差地搬运到自己网站上,然后腾讯就把网贷之家的运营方,即上海盈讯科技有限公司告上了法庭。理由有两个,一是侵犯了著作权,二是不正当竞争。 2019年9月,深圳市南山法院受理了这一案件,并于2020年1月进行了宣判,认为被告侵害了原告享有的信息网络传播权,应承担相应的民事责任。但鉴于被告已经删除侵权作品,法院判定被告赔偿原告经济损失及合理的维权费用人民币1500元。 法制时报的报道中,也进一步披露了法院的判决依据。 涉案文章由原告主创团队人员运用Dream Writer软件生成,其外在表现符合文字作品的形式要求,其表现的内容体现出对当日上午相关股市信息、数据的选择、分析、判断,文章结构合理,表达逻辑清晰,具有一定的独创性。 从涉案文章的外在表现形式与生成过程来分析,此文的特定表现形式及其源于创作者个性化的选择与安排,并由Dream Writer软件在技术上“生成”的创作过程均满足著作权法对文字作品的保护条件,属于我国著作权法所保护的文字作品。 因此,深圳市南山法院最终审定,腾讯胜诉,为AI生成的作品到底应不应该享有著作权提供了一个判例。 (2)版权保护的核心逻辑。 当人们使用人工智能生成内容时,一个问题悄悄浮现,即“人工智能绘画”作品的版权究竟应该如何界定? 从“深圳南山案”腾讯公司的胜诉中可以了解到,虽然DreamWriter软件属于“人工智能生成内容”工具,但是该软件是多人分工形成的整体智力创作,且最终生成的文章是经过数据的选择、分析、判断及文章结构和表达逻辑设计,是可以享有著作权的作品。 引用中华人民共和国版权法中关于著作权归属的相关内容:“著作权自作品完成之日起产生。法律、行政法规规定的其他拥有著作权的情形,依照其规定。”当我们站在法律视域的高度,针对人工智能绘画的两种可能情境稍加思索,就能窥见其中的玄妙。 情境一:艺术创造的源头—软件研发机构 在那片由算法掌控的画布上,如果“创作者”未能有效调教、掌控AI绘图程序,仅提出一些笼统的、宽泛的需求,而本质上是依赖绘画软件制作者所提供的数据与参数进行图像生成,我们或许可以认定,图片的创意源泉,实际上是软件制作团队或个人思想的延续。 虽然画布上涌动的色彩与线条,看似是“创作者”驱动AI完成的创作,但其背后隐藏的是程序作者的算法最终完成结果。这一情况下,理当认为,这些瑰丽的电子画卷,其著作权应归属于软件制作人。 情境二:人类智慧闪耀时—真正的创作者 而在另一个维度中,若AI绘图程序提供了充分的自由度,而创作者也通过对工具的使用和调教,使得用户可以通过它倾注自己的创造智慧,那么这部分的创造成果是否应该属于用户呢?在这种情况下,软件成了一个工具,一个可以让用户抒发自己情感、展示自己智慧的平台。 透过《中华人民共和国版权法》的法律透镜,我们可以依法推导,在这种情况下,AI绘画的著作权或许应当归属于用户。软件制作人提供了可能性,用户则赋予了这个可能性形态和生命。这样的合作,生发出了一种新的创造力量。 我国版权中有一条重要原则:保护表达,而不保护思想。 作为一名深爱这片土地的赤子,同时又掌握了AI绘画技能,我们可以尝试使用人工智能绘画工具来描绘祖国大好河山,表达自己的热爱。鉴于作品创作过程中并非简单的提示词陈列,而是加入了前期调研、设计、思考等工作,在画作生成过程中又不断调整参数,在画作生成后又借助各类其他绘图软件进行后期效果编辑等。经过如此多步骤最终得到的作品,才是真正属于创作者个人的作品,真正拥有版权的作品。 图1-14所示为希望“借用”摄影器材(单反相机),搭配高阶摄影手法,即双重曝光和极长镜头来表达一位女生在上海的街头美拍。本图虽然并非真实摄影,但是经过创意、构思、提示词测试及调整、最终定稿等一系列工作,作者认为这是一张属于创作者本人的图片。 人类才是创作的主体,是驱动设计的核心。在驱动AI工作时,请用户尽情发挥想象力。 提示词:Double exposure(双重曝光),stars of human wisdom shine(人类智慧之星闪耀),chinese girl holding ink brush pen drawing rainbow(中国女孩拿着毛笔钢笔画彩虹),extremly long shot(极长镜头),DSLR(单反相机),shanghai city(上海)--ar 16:9 图1-14 AI生成的摄影作品 2. 美国相关法律法规 (1)《黎明的查莉娅》判例。 美国版权局(USCO)于2023年3月发布规定称,人工智能(AI)自动生成的作品不受版权法保护,如 图1-15所示。 在这份文件中,USCO表示,与人工参与创作的Photoshop作品比较,通过Midjourney、Stability AI、ChatGPT等平台自动生成的作品完全由AI完成,根据对生成式人工智能技术的理解,用户对于输出的内容不具有创造性贡献和控制,应当拒绝版权注册申请。因此不受版权法保护。 但此法规显然无法有效应对来自人工智能生成内容时代的挑战,USCO随后在2023年3月16日发布《“含有AI生成元素的作品”的版权注册指南》(下文简称“《指南》”),进一步澄清了实践中USCO对于AI生成元素进行审查和注册的基本政策。 根据《指南》,USCO对包含AI生成元素的生成物的可版权性的判断标准是“作品”中的传统作者要素(文学、艺术或音乐表达或选择、编排等要素)是否为人类完成。 如果人类仅通过向AI工具进行提示(Prompts),例如我们向ChatGPT下指令,要求其完成一段“莎士比亚风格的诗歌”,这是无法使生成物具有版权性的。 另一方面,人类如果对AI生成元素进行了充分的修改、选择和安排,并且这些修改、选择和安排具有独创性,这将使得整个生成物可以构成版权法下的作品,这和人类艺术家使用Adobe Photoshop编辑、修改的图像一样。但版权也仅保护其中人类完成的部分。 一个经典判例来自2023年2月21日,美国版权局对美国艺术家克里斯蒂娜·卡什塔诺娃(Kristina Kashtanova)的漫画作品《黎明的查莉娅》(Zarya of the Dawn)的版权界定:作者拥有在文字、视觉元素的协调和编排部分的版权,但版权保护不适用于由AI绘画工具Midjourney生成的部分,如图1-16所示。 美国版权局在回信中称,该部门将重新发布Zarya of the Dawn这一漫画作品的版权注册信息,以删除那些因不是人类创作的作品而不能获得版权的图像。 在本案中,卡什塔诺生成了Zarya of the Dawn的文字,Midjourney则根据她的提示去创作书中的插图,如图1-17所示。 在本案中,美国版权局第一次较为清晰地界定了对于AI生成作品的版权问题,对规范这一产业的发展有一定的积极意义。但如何清晰量化和明确界定人类和机器的工作贡献度,纵观全球各主要经济体,目前依然没有妥善的解决方案。 图1-15 美国版权局(USCO)2023年3月16日规定原文 图1-16 美国版权局(USCO)针对《黎明的查莉娅》 回复函原文 图1-17 Zarya of the Dawn作品中的第1、2页(图源:美国版权局) (2)美国版权局要点复盘。 在本案中,版权局对几个重点词汇进行了单独解释,如版权、科技工具、作品等。 USCO认为,著作权只能保护由人类运用其创造力生产的内容。“作者”在宪法和著作权法中都不包含非人类。这是USCO历史上秉承的一贯立场,也是美国法院所支持的立场。 美国最高法院将“作者”(author)定义为“他是任何事物的起源、发起人、创造者、完成科学或文学作品的人”(he to whom anything owes its origin; originator; maker; one who completes a work of science or literature)。最高法院反复强调,“作者”是人,版权是“一个人依靠自己的才能或智力创造的产品所享有的专有权利”(the exclusive right of a man to the production of his own genius or intellect)。 联邦上诉法院也得出了同样的结论。第九巡回法庭在一个案件中认为,猴子不能为它用相机所拍摄的照片申请版权登记,因为著作权法提到了作者的孩子、遗孀、鳏夫、孙辈,这些身份名词都暗示作者应当是人类,而不应当包括动物在内。 基于上述“所登记作品的作者应当为人类”这一认知,对于包含AI生成内容的作品,USCO将考察AI对作品的贡献是否属于机械复制,或者AI仅仅是对作者的原创概念进行了可视化表述。如果一部作品传统的原创要素(文学、艺术或音乐的表达、选择、编排等)是由机器产出的,那么这一作品就不满足作者是人类的要求,USCO将不予登记。 根据USCO对生成式AI的理解,当AI仅依据其接收的用户指示就进行复杂的内容产出时,作品应具有的传统原创要素是由AI而不是人类进行确定和执行的。AI在识别用户指示后确定并输出内容、实现指令,但用户本身无法对这一过程进行创造性控制。 例如,用户可以指示生成式AI模仿莎士比亚的风格写一首与著作权有关的诗,用户可以预见系统生成的内容是一首诗歌,提到了著作权,并且类似于莎士比亚的风格,但只有AI技术本身能够决定其押韵模式、所用的单词、文本的结构等内容。因此,这一由AI确定其输出的表达元素的作品,不满足作者是人类这一条件。 人类和AI可能会共同创作作品,例如本节所探讨的案例《黎明的查莉娅》,是由人类对AI生成的内容进行创造性的选择和编排,同时作者本身在AI生成作品后加入了大量的“人肉修图”工作,即人类艺术家对AI生成的作品进行调整,最终使其达到著作权保护的标准等。 对于上述情况,著作权将仅仅保护由人类创作的、独立于且不影响AI生成内容本身版权状态的部分。 本质上,美国版权局(USCO)强调的都是人类在多大程度上创造性地掌控了作品的表达,并且实际形成了传统的原创要素。这也正是本书希望读者始终思考的一个话题:在AI绘画作品的创作过程中,人类究竟投入了多少“创作”? (3)本案值得关注的要点。 版权只能保护人类创造力的产物—美国宪法和版权法中使用的“作者”一词不包括非人类。 科技工具可以是创作过程中的一部分,但作品表达的创造性必须是由人类控制的。如果只是AI技术根据人类的提示产生作品,则该作品缺乏人类作者身份,不受版权保护。如果人类艺术家以足够有创意的方式选择或安排AI生成的材料,以及艺术家修改AI生成的材料以符合版权保护标准,使得AI生成的作品包含足够的人类作者身份,则可以支持版权主张。 对于包含AI生成物的作品,美国版权局将考虑AI的贡献是“机械复制”的结果,还是包含作者“创造性的想法(智力活动),(由作者)赋予表现形式”的结果。答案将取决于具体情况,特别是AI工具如何运作以及作者如何使用AI工具创建最终作品。 这份版权登记指南也对申请者提出了版权注册的具体要求,部分内容如下。 申请人有义务披露提交注册的作品中包含人工智能生成的内容,并简要说明人类作者对作品的贡献。例如,将AI生成的文本合并到更大的文本作品中的申请人应该声明文本作品中人工创作的部分。 如果已经提交申请的作品包含AI生成材料,那么申请人需要重新检查是否充分披露了这些材料,以便申请有效。如果未披露,那么申请者需要联系版权局进行补充注册。 美国版权局最后表示,其将持续监测涉及AI和版权的新事实和法律发展,并可能在未来发布与注册或该技术涉及的其他版权问题相关的其他指南。 这份版权登记指南,阐明了美国版权局对于AIGC的态度。当且仅当AIGC具备“作者的创造性想法(智力活动)、(由作者)赋予表现形式”时,才有可能获得版权法保护。 总而言之,美国版权局采取“独创性”为判断依据,作者向版权局证明自己的“独创性”即可拥有版权。 3. 关于AI绘画作品版权的阶段性总结 截至2023年11月,全球各主要经济体仍未能对人工智能生成内容相关作品、数据、版权等问题形成统一共识。这可能是人类历史上首次遇到一个“成长和进化速度远远超出预期”的全新物种,它是如此的“新鲜”,以至于过往所有法律法规在它面前都略显陈旧和迂腐,但它的成长和进化速度又是以天,甚至小时为单位计算的。 司法实践过程中,主要关注点在于,首先作者必须是“人”,必须是生物学意义上的“人”或者是“法人”;其次是作者在创作过程中“主导创作过程”并“完成了智力贡献”。但如何精确界定“智力贡献”有多大,还需要继续等待相关法律法规的进步。 所以本节主要目的在于为读者呈现中国、美国、欧盟当前政策风向及司法实践判例。 1.4 国内创作者必读的法律法规 AIGC已悄然无声地渗透了我们工作的每一个角落。我们或许正使用着硅谷巨头的智能软件,在国内的办公桌前编织着数字时代的梦想。我们不但需要了解大洋彼岸的相关规定,还要认真严肃地遵守国内法律法规。 1.4.1 算法、模型、规则基本概念 2022年11月25日,国家互联网信息办公室、工业和信息化部、公安部令公布《互联网信息服务深度合成管理规定》(以下简称《规定》),该规定自2023年1月10日起施行。2023年7月10日,国家互联网信息办公室等七部门公布了《生成式人工智能服务管理办法》(以下简称“《办法》”),该办法自2023年8月15日起施行。 本节将根据《规定》和《办法》中的条文为读者做简单的介绍和说明。 生成式人工智能定义:指基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术。 深度合成技术定义:指利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术。 深度合成技术包括但不限于以下几类。 篇章生成、文本风格转换、问答对话等生成或者编辑文本内容的技术。 文本转语音、语音转换、语音属性编辑等生成或者编辑语音内容的技术。 音乐生成、场景声编辑等生成或者编辑非语音内容的技术。 人脸生成、人脸替换、人物属性编辑、人脸操控、姿态操控等生成或者编辑图像、视频内容中生物特征的技术。 图像生成、图像增强、图像修复等生成或者编辑图像、视频内容中非生物特征的技术。 三维重建、数字仿真等生成或者编辑数字人物、虚拟场景的技术。 从以上定义来看,生成式人工智能和深度合成技术从字面上比较有以下区别。 1. 生成式人工智能较深度合成技术而言不仅仅指算法生成,还包括模型与规则生成的内容 《办法》第四条也提到:“提供生成式人工智能产品或服务应当遵守法律法规的要求,尊重社会公德、公序良俗,符合以下要求……(二)在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,采取措施防止出现种族、民族、信仰、国别、地域、性别、年龄、职业等歧视……” 从定义以及《办法》第四条第二项的要求上看,生成式人工智能的魅力远非单纯的算法技术所能涵盖。除了算法,还融合了模型与规则。从计算机科学的视角来看,算法、模型与规则,可以理解为如下内容。 算法:一组解决问题或执行任务的明确、有序的步骤和指令,在有限的时间内给出结果。 模型:是机器学习中,通过算法从数据中学习得到的用于预测或分类的数学表达式或结构。 规则:是明确的指导原则或条件,用于指导算法中的决策或行为。 换一个角度去理解:在生成式人工智能的世界,尽管它所包含的算法与深度合成技术有许多相似之处,都属于生成合成技术的范畴。但我们必须明白,《办法》所期望的监管范围,远不止于单一的技术或算法,其深度与广度都远超我们的想象。 2. 深度合成技术与生成式AI的应用重心 深度合成技术这一称呼,其实是源于国外的“深度伪造”(deep fake)一词,由“深度学习”(deep learning)与“伪造”(fake)两词组合而来。所谓的生成式人工智能,则来源于西方颇受欢迎的“AI Generated Content”。 从生成合成算法的角度来看,本书认为,站在使用者视角来看,深度合成技术与生成式人工智能在本质上并无太大差异。即便是AIGC领域的“老司机”也不会细究其概念差异。实际上,它们之间的区别主要是由于应用的侧重点不同而产生的。例如,深度合成技术更多地应用于Deep Fake这样的合成类软件中,而生成式人工智能则更多地服务于ChatGPT这样的人工智能对话机器人。 1.4.2 《规定》和《办法》对比解读 1. 立法目的不同 首先,从更宏观的法律架构和立法宗旨出发,《规定》的初心在于加强对互联网信息服务中深度合成的管理。《办法》进一步印证了该规定的核心,即着眼于对互联网的有序治理。在《规定》发布会的答记者环节中,明确提及了规定的立法初衷,即在确保深度合成服务满足用户需求、提升用户体验的基础上,也要严防被不法分子滥用。这些滥用行为,如制作、发布违法信息、损害他人名誉、冒用他人身份进行诈骗等,都破坏了网络和社会的正常秩序,伤害了公众的合法权益,甚至对国家的安全与社会的稳定造成威胁。 另一方面,《办法》则更为广泛地关注于生成式人工智能的全面健康发展与规范应用,它不仅仅局限于互联网治理,更深入地探讨了整个人工智能行业的健康成长之路。 2. 监管范围不同 《规定》与《办法》的显著差异在于其更广泛的监管覆盖面。不仅仅针对技术的提供者,它还涵盖了深度合成服务的技术支持方,即为深度合成服务提供关键技术支持的机构和个人;同时,还包括深度合成服务的终端用户,即那些利用此技术制作、复制、发布、传播信息的组织和个体。 3. 具体合规要求不同 (1)关于数据监管。 《规定》对深度合成服务提供者和技术支持者在训练数据管理上的职责进行了明确,同时对训练数据与其他数据进行了明确的分类,并提出了各自的监管要求。特别是其中的“输入数据”条款,如第十条中明文指出:“深度合成服务提供者应确保深度合成内容的适当管理,并通过技术或人工手段对用户的输入数据和合成结果进行审查。”相比之下,《办法》更多地强调了数据来源的合法性,特别是对预训练和优化训练数据的来源,明确要求满足包括《中华人民共和国网络安全法》在内的多项规定。 (2)关于输出内容的监管。 尽管两个规定都强调输出内容应符合法律要求并反映社会主义核心价值观,但它们在处理不合规内容时的方法存在差异。《办法》对使用者的处置措施相对简明,仅限于暂停或终止服务;《规定》则提供了更多的应对手段,包括警告、功能限制、服务暂停和账户关闭等。值得一提的是,《生成式人工智能办法》中的第十五条特别规定了对于发现的或被用户举报的不合规内容,除了内容过滤等措施外,还要求在3个月内通过模型优化等方式避免再次生成此类内容。这一条款虽未明确提供者为主体,但从条文内容看,其目标应是指向提供者。这反映了监管机构希望看到人工智能技术能够在优化和训练中持续正向发展。 1.4.3 《规定》和《办法》之间的关联 尽管这两个法规在立法目的、监管范围和具体的合规要求上都各有侧重,但它们与《算法推荐管理规定》之间存在明确的联系和相互衔接。例如,《生成式人工智能办法》的第六条和第十六条都明确指出,“在特定情境下,应参照《互联网信息服务算法推荐管理规定》和《深度合成技术规定》来进行操作。”具体来说,第六条提到:“在利用生成式人工智能产品为公众提供服务之前,应按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》向国家网信部门提交安全评估,并依据《互联网信息服务算法推荐管理规定》完成算法备案及相关变更和注销手续。” 同时,第十六条明确:“提供者应依据《互联网信息服务深度合成管理规定》为生成的图像、视频等内容加以标注。” 此外,这两个法规在与其他相关规定的衔接上也显示出了一致性。例如,在算法备案和安全评估方面,对于生成式人工智能和深度合成技术的产品,它们都设定了明确的要求。例如,《深度合成管理规定》的第十九条规定:“那些具备舆论属性或社会动员能力的深度合成服务提供者,应按照《互联网信息服务算法推荐管理规定》执行备案以及相关的变更和注销手续。”第二十条进一步指出:“当深度合成服务提供者推出具有舆论属性或社会动员能力的新产品、新应用或新功能时,应根据国家相关规定进行安全评估。” 1.4.4 作者感悟 在人工智能技术日益进步的当下,社会公众面临的信息泛滥境况使得信息真伪难辨,互联网已步入“所见未必为实”的后真实时代。本人即便作为从业者及研究者,都无法针对每条获取到的信息进行真伪验证。 随着越来越多的AIGC内容如惊涛巨浪般砸来,我们将如何应对挑战? 这使得我国监管部门需要持续建设并完善相关配套监管措施,需要根据各业务领域的独特性,逐步制定对应的监管要求,旨在弥补人工智能技术的监管空缺,最大程度地保障社会的信息安全。