第3章 大模型架构 大语言模型的底层逻辑包括深度学习架构、训练机制与应用场景等。近年来,通过扩大 数据大小和模型大小,大模型取得了显著进展,提升了惊人的涌现能力,包括上下文学习 (指令微调和思维链(尽管大模型在自然语言处理任务中表现出了令人 ICL )、CoT )。不过, ,惊讶的零样本/少样本(Zero/Few-Shot)推理性能,但它们天生“视而不见”因为它们通常 只能理解离散文本。尽管如此,研究界还是做出了许多努力来开发有能力的多模态大模型, 展示了一些令人惊讶的实用能力,例如基于图像编写网站代码,理解模因(指能通过模仿而 被复制的信息或思想,小到一条回答、一段流行歌曲旋律、一首古诗、一个笑话、一幅图片,大 到一个习俗、一个节日、一个思想、一个主义)的深层含义,以及数学推理。 3.大模型生成原理 1 简单来说,GPT(生成式预训练)大模型是一种基于深度学习的自然语言处理模型。它 生成文本(文生文)结果的原理,就是通过学习语 言的规律,然后根据已有的语境(上文), 预测下一 个单词(频率), 从而生成连贯的文本(图3-1)。这 一点和人类说话或写文章是类似的。 借助于群体智能,GPT 模型的学习能力和 生 成能力已经远超人类。比如,在人类对话中,“我 ” 后面通常会跟“是”,“你”后面通常会跟“好”等, 这 就是一种语言规律。GPT 模型通过类似方式来 学 习语言规律。在模型训练过程中,GPT 模型会 阅 读大量,甚至是数以亿计的文本数据,从中学习文图3- 1 通过预测生成文 本 本中非常复杂的语言规律。这就是GPT 模型 生 成自然、连贯文本的原理 。 GPT 模型的内部结构由多层神经网络组成,每一层神经网络都可以抽取文本的某种 特征 ( 。 1)第一层神经网络可能会抽取出单词的拼写规律。 (2)第二层神经网络可能会抽取出词性的规律。 (3)第三层神经网络可能会抽取出句子的语法规律等。 37 通过层层抽取,GPT模型可以学习到深层次的语言规律。其工作原理还涉及很多复杂 的数学和计算机科学知识。 3.1 上下文学习 1. GPT-3模型展现了一些大模型才具备的突现能力(就是模型规模必须增大到一定程度 才会显现的能力,比如至少百亿级),其中一项能力就是上下文学习。该能力就是,对于一个 预训练好的大模型,迁移到新任务上时,并不需要重新训练,而只需要给模型提供任务描述 (这个任务描述是可选项),输入几个示例(输入—输出对),最后加上要模型回答的查询,模 型就能为新输入生成正确输出查询对应的答案,而不需要对模型做微调。这也引发了研究 人员对该能力产生原因的思考和探索。 GPT- n 系列的模型都属于自回归类的语言模型,就是根据当前输入预测下一个词,然 后将预测结果和输入拼接当作模型的输入预测下一个词,这样循环往复。 而自回归模型的训练目标也很简单,就是从超大规模语料库中采样训练样本,模型根据 输入输出一个概率向量(包含所有词的预测概率,就GPT-3模型而言,维度约为1000多 万),而因为文本数据自带标注,所以知道真实的下一个词。然后,研究人员发现,预训练好 的GPT-3模型拥有一项神奇的能力,后来就被称为上下文学习。比如,现在想用GPT-3来 做一个翻译任务,将英文翻译为法文。输入的格式如图3-2所示。 图3- 2 GPT-3的翻译任务格式 第1行是对任务进行描述,告诉模型要做翻译,接下来3行是示例,即英文单词和对应 的法文单词,最后一行是待翻译的英文单词。将以上内容整体作为GPT-3的输入,让模型 补全输出,就能得到chese对应的法文单词。 上下文学习非常灵活,除了翻译任务,还可以做语法修饰,甚至写代码。而神奇的地方 在于,GPT-3的训练过程中并没有显式地提供类似测试阶段任务描述加示例这样的训练 数据。 当然,GPT-3的训练数据量非常巨大(比如包含维基百科、书本期刊上的讨论等),或许 里面已经包含了各种任务类似结构的数据。GPT-3模型的容量足够大,记下了所有训练 数据。 对于上下文学习能力的成因,目前还是一个开放性的问题。为什么只有大规模的语言 模型才会具备这样的能力? 或许只有模型参数量大还不够,训练数据量也必须足够大,模型 才能显现出该能力? 38 1.指令微调 3.2 指令微调(又称指令跟随)是一种通过在由(指令,输出)对组成的数据集结构上进一 步训练大模型的过程,以增强大模型的能力和可控性。其中,指令代表模型的人类指令,输 出代表遵循指令的期望输出。这种结构使得指令微调专注于让模型理解和遵循人类指令。 这个过程有助于弥合大模型的下一个词预测目标与用户让大模型遵循人类指令的目标之间 的差距。 指令微调可以被视为有监督微调的一种特殊形式。但是,它们的目标依然有差别。有 监督微调是一种使用标记数据对预训练模型进行微调的过程,以便模型能够更好地执行特 定任务。 1.零样本/少样本 3.3 举个例子,公司门禁系统用了人脸识别,而你只提供了一张照片,门禁系统就能从各个 角度认出你,这就是单一样本。可以把单一样本理解为用1条数据微调模型。在人脸识别 场景中,单一样本很常见。 在自然语言处理场景中,用百度百科、维基百科上的数据、新闻等训练一个GPT 模型, 直接拿来做对话任务,这就是零样本(完全的无监督学习)。然后,如果发现里面对话有点 多,于是找一些人标注少量优质数据喂进去,这就是少样本。ChatGPT 的发展就经历了从 零样本到少样本的过程。 GPT-3之后的问题是少样本时到底应该标注哪些数据。将它们跟强化学习结合起来, 就是人类反馈强化学习,这是ChatGPT 的核心技术。这套方法本质的目的是:如何把机器 的知识与人的知识对齐。然后开创了一个新的方向,叫“对准”。 1.深度学习架构 3.4 “模型”是一种现实化的数学公式抽象。即使深度学习的出发点是更深层次的神经网 络,但细分起来也会有非常多的不同模型(也就是不同的抽象问题的方式)。对应不同的数 学公式,比如常见的CNN(卷积神经网络)、DNN(深度神经网络)等,大模型就是模型中比 较“大”的那一类,大的具体含义也就是数学公式更复杂,参数更多。 2021 年8月,李飞飞等学者联名发表一份200 多页的研究报告《论基础模型的机遇与 风险》,详细描述了大规模预训练模型面临的机遇和挑战。在文章中,大模型被统一命名为 “基础模型”。该论文肯定了基础模型对智能体基本认知能力的推动作用。2017 年 Transformer结构的提出,使得深度学习模型参数突破了1亿,BERT 网络模型超过3亿规 模,GPT-3模型超过百亿,大模型蓬勃发展,已经出现多个参数超过千亿的大模型。参数量 多,学习的数据量更多,模型的泛化能力更强。泛化能力通俗来讲就是一专多能,可以完成 多个不同的任务。 (1)词嵌入层。大模型使用词嵌入技术将文本中的每个词汇转换为高维向量,确保模 型可以处理连续的符号序列。这些向量不仅编码了词汇本身的含义,还考虑了语境下的潜 在关联。 (2)位置编码。为了解决序列信息中词语顺序的问题,Transformer引入位置编码机 39 制,允许模型理解并记住单词之间的相对或绝对位置关系,即使在转换成固定长度向量后也 能保留上下文信息。 (3)自注意力机制。自注意力是Transformer的核心部件,通过计算输入序列中每个 位置的单词与其他所有位置单词的相关性实现对整个句子的全局建模。多头自注意力扩展 了这一机制,使其能够从不同视角捕获并整合信息。 (4)前馈神经网络(FFN )。在自注意力层之后,模型通常会包含一个或多个全连接的 前馈神经网络层,用于进一步提炼和组合特征,增强模型对复杂语言结构的理解和表达 能力。 1.训练策略及优化技术 3.5 大量实验证明,在高质量的训练语料进行指令微调的前提下,超过百亿参数量的模型才 具备一定的涌现能力,尤其是在一些复杂的推理任务上。也就是说,如果要通过大模型技术 来提升业务指标,不得不要求我们去训练一个百亿规模的模型。然而,一般情况下人们并不 具备如此大规模的计算资源,在有限算力条件下训练或推理一个百亿量级的大模型是不太 现实的。因此,要在训练和推理阶段采用一些优化策略来解决此类问题,以在有限计算资源 条件下完成自己的大模型训练任务。 (1)自我监督学习。利用大规模无标签文本数据进行预训练时,采用如掩码语言模型 (MaskedLanguageModel,MLM)或自回归模型(GPT-style)等策略。MLM 通过对部分词 汇进行遮蔽,并让模型预测被遮蔽的内容来学习语言表征,而自回归模型则是基于历史信息 预测下一个词的概率。 (2)微调阶段。预训练完成后,模型在特定任务上进行微调,以适应具体需求。它涉及 文本分类、问答系统、机器翻译等各种下游任务,通过梯度反向传播调整模型参数,提升任务 性能 ( 。 3)先进的训练方法。包括对比学习,利用正负样本对强化模型识别和区分关键信息 的能力,以及增强学习,使模型通过与环境交互,逐步优化其输出,以最大化预期奖励。 1.所谓世界模型 3.6 人类和动物能够通过观察、简单交互以及无监督方式学习世界知识,可以假设这里 蕴含的潜在能力构成了常识的基础,这种常识能够让人类在陌生的环境下完成任务。例 如一位年轻司机从来没有在雪地里开过车,但是他却知道在雪地里如果车开得太猛,轮 胎会打滑。 早在几十年前,就有学者研究人类、动物甚至智能系统如何“借力”世界模型,自我学习。 因此,当前人工智能也面临着重新设计学习范式和架构,使机器能够以自我监督的方式学习 世界模型,然后使用这些模型进行预测、推理和规划。 世界模型需要融合不同学科的观点,包括但不限于认知科学、系统神经科学、最优控制、 强化学习以及“传统”人工智能。必须将它们与机器学习的新概念相结合,如自监督学习和 联合嵌入架构。 40 3.多模态语言模型 2 所谓多模态,指的是多种模态的信息,包括文本、图像、视频、音频等。在大多数工作中, 主要是处理图像和文本形式的数据,即把视频数据转为图像,把音频数据转为文本格式,这 就涉及图像和文本领域的内容。顾名思义,多模态研究的是这些不同类型的数据的融合 问题。 一般大模型是一种生成文字的模型,它和文生图(如DALL·E)都是多模态语言模型 的分支。多模态大语言模型(MultimodelLLM,MLLM)是近年来兴起的一个新的研究热 点,它利用强大的大模型(LLM)作为大脑来执行多模态任务。MLLM 令人惊讶的新兴能 力,如基于图像写故事和数学推理,在传统方法中是罕见的,显示了一条通往人工通用智能 的潜在道路。 与此同时,大型视觉基础模型在感知方面进展迅速,而传统的与文本的结合更注重模态 对齐和任务统一,在推理方面发展缓慢。鉴于这种互补性,单模态大模型和视觉模型同时朝 着彼此运行,最终造就了MLLM 新领域。在形式上,MLLM 指的是基于大模型的模型, 模型能够接收多模态信息,并对其进行推理。从发展人工通用智能的角度来看,MLLM 比(该) 大模型更进一步。 (1)MLLM 更符合人类感知世界的方式。人类自然地接受多感官输入,这些输入往往 是互补和合作的。因此,多模态信息有望使MLLM 更加智能。 (2)MLLM 提供了一个用户友好性更好的界面。得益于多模态输入的支持,用户可以 更灵活地与智能助手进行交互。 (3)MLLM 是一个更全面的任务解决者。虽然大模型通常可以执行自然语言处理任 务,但MLLM 通常可以支持更大范围的任务。 具有代表性的MLLM 可以分为4种主要类型。 (1)多模态指令调整(MIT )。 (2)多模态上下文学习(M-ICL )。 (3)多模态思维链(M-CoT )。 这3种类型构成了MLLM 的基本原理,3种技术相对独立,并且可以组合使用。 (4)大模型辅助视觉推理(LAVR )。这是以大模型为核心的多模态系统。 2.多模态指令微调 3.1 指令是指对任务的描述。指令微调是一种涉及在指令格式数据集集合上微调预训练大 模型的技术。通过这种方式调整,大模型可以通过遵循新的指令来泛化到隐藏的任务,从而 提高零样本性能。这个简单而有效的想法引发了自然语言处理领域后续工作的成功,如 ChatGPT 。 监督微调方法通常需要许多特定任务的数据来训练特定任务的模型。提示方法减少了 对大规模数据的依赖,并且可以通过提示来完成专门的任务。在这种情况下,少样本性能得 到了改进,但零样本性能仍然相当平均。不同的是,指令微调学习泛化任务,而不局限于适 应特定的任务,指令调整与多任务提示高度相关。许多研究工作探索了将大模型中指令调 41 整的成功扩展到多模态。从单模态扩展到多模态,数据和模型都需要进行相应的调整。 研究人员通常通过调整现有的基准数据集或自学习来获取数据集,一种常见的方法是 将外来模态的信息注入大模型,并将其视为强有力的推理机。相关工作要么直接将外来模 态嵌入与大模型对齐,要么求助于专家模型将外来模态翻译成大模型可以吸收的自然语言。 通过这种方式,这些工作通过多模态指令调整将大模型转换为多模态通用任务求解器。 3.2 多模态上下文学习 2. 多模态上下文学习是大模型重要的涌现能力之一。上下文学习有以下两个优点。 (1)与传统的从丰富的数据中学习内隐模态的监督学习范式不同,上下文学习的关键 是从类比中学习。具体而言,在上下文学习设置中,大模型从几个例子和可选指令中学习, 并推断出新的问题,从而以少量方式解决复杂和隐含的任务。 (2)上下文学习通常以无训练的方式实现,因此可以在推理阶段灵活地集成到不同的框 架中,指令调整技术可以增强上下文学习的能力。在此背景下,学习扩展到更多模态,在推理 时可以通过向原始样本添加一个演示集,即一组上下文中的样本来实现多模态上下文学习。 多模态上下文学习主要用于以下两种场景。 (1)解决各种视觉推理任务。通常包括从几个特定任务的例子中学习,并概括为一个 新的但相似的问题。根据说明和演示中提供的信息,大模型可以了解任务在做什么以及输 出模板是什么,并最终生成预期的答案。相比之下,工具使用的示例通常是纯文本的,而且 更具细粒度。它们通常包括一系列步骤,这些步骤可以按顺序执行,以完成任务。 (2)教大模型使用外部工具。这种情况与思维链密切相关。 2.多模态思维链 3.3 思维链(CoT)是“一系列中间推理步骤”,已被证明在复杂推理任务中是有效的。其主 要思想是促使大模型不仅输出最终答案,而且输出导致答案的推理过程,类似人类的认知过 程。受自然语言处理成功的启发,已经有多项工作来将单模态CoT 扩展到多模态CoT(M- CoT )。 (1)模态桥接。为了将自然语言处理转移到多模态,模态桥接是第一个需要解决的问 题。大致有两种方法可以实现这一点:融合特征或将视觉输入转换为文本描述。 (2)学习范式。获得M-CoT 能力的方法大致有3种,即通过微调、无训练的少样本或 无样本学习。三种方式的样本量要求按降序排列。微调方法通常涉及为M-CoT 学习管理 特定的数据集。例如,ScienceQA 构建了一个包含讲座和解释的科学问答数据集,该数据集 可以作为学习CoT 推理的来源,并对提出的数据集进行微调。多模态CoT 也使用 ScienceQA 基准,但以两步方式生成输出,即基本原理(推理步骤链)和基于基本原理的最终 答案。CoT 通过快速调整和特定步骤视觉偏见的组合来学习隐含的推理链。 与微调相比,少样本/零样本学习的计算效率更高。主要区别在于,少样本学习通常需 要人工准备一些上下文例子,使模型更容易一步一步地学习推理。零样本学习不需要任何 具体学习示例。它通过提示“让作者逐帧思考”或“这两个关键帧之间发生了什么”等设计指 令,模型学会在没有明确指导的情况下利用嵌入的知识和推理能力。类似地,一些工作提示 模型描述任务和工具使用情况,将复杂任务分解为子任务。 42 2.大模型辅助视觉推理 3.4 受工具增强大模型成功的启发,一些研究探索了调用外部工具或视觉基础模型进行视 觉推理任务的可能性,将大模型作为具有不同角色的助手,构建特定任务或通用的视觉推理 系统。 与传统的视觉推理模型相比,这些工作表现出以下几个良好的特点。 (1)较强的泛化能力。这些系统配备了从大规模预训练中学习到的丰富的开放世界知 识,可以很容易地推广到具有显著Zero/FewShot性能的看不见的物体或概念。 (2)突发能力。在强大推理能力和丰富大模型知识的帮助下,这些系统能够执行复杂 的任务。例如,给定一张图片,MM-REAT可以解释表面下的含义,比如解释为什么一个模 因很有趣。 (3)更好的交互性和控制力。传统模型的控制机制有限,并且通常需要昂贵的策划数 据集。相比之下,基于大模型的系统能够在用户友好的界面中进行精细控制(例如单击)。 3.大模型的结构 3 当前,绝大多数大语言模型都采用类似GPT的架构,使用基于Transformer结构构建 的仅由解码器组成的网络结构,采用自回归的方式构建语 言模型,但是在位置编码、层归一化位置、激活函数等细节 上各有不同。下面以LLaMA模型为例介绍。 3.1 LLaMA 的模型结构 3. LLaMA是Meta公司的开源大模型,其参数量从70 亿到650亿不等。根据初步测试,130亿参数的LLaMA 模型“在大多数基准上”可以胜过参数量达1750亿的 GPT-3,而且可以在单块V100GPU上运行;而最大的650 亿参数的LLaMA模型可以媲美谷歌的Chinchila-70B和 PaLM-540B 。对大模型来说,如此少量的参数但性能更 好,这让人们一直很期待。 LLaMA采用的Transformer结构与GPT-2类似 (图3-3),其不同之处为采用了前置层归一化方法,更换了 激活函数,使用了旋转位置嵌入。 3.2 LLaMA 的注意力机制 3. 在Transformer结构中,自注意力机制的时间和存储 复杂度与序列的长度呈平方的关系,因此占用了大量的计 算设备内存,并消耗了大量的计算资源。如何优化自注意 力机制的时空复杂度、增强计算效率,是大模型面临的重 要问题。一些研究从近似注意力出发,旨在减少注意力计 图3-3GPT-2模型结构 43 算和内存需求,提出了稀疏近似、低秩近似等方法。此外,有一些研究从计算加速设备本身 的特性出发,研究如何更好地利用硬件特性对Transformer中的注意力层进行高效计算。 对一些训练好的Transformer结构中的注意力矩阵分析时发现,其中很多是稀疏的,因 此可以通过限制查询—健对的数量来降低计算复杂度。这类方法称为稀疏注意力机制。可 以将稀疏化方法进一步分成基于位置的和基于内容的两类。 基于位置的稀疏注意力机制的基本类型有5种(图3-4)。 图3- 4 5 种基于位置的稀疏注意力机制 (1)全局注意力:为了增强模型建模长距离依赖关系的能力,可以加入一些全局节点。 (2)带状注意力:大部分数据都带有局部性,限制查询只与相邻的几个节点进行交互。 (3)膨胀注意力:通过增加空隙获取更大的感受野。 (4)随机注意力:通过随机采样提升非局部的交互能力。 (5)局部块注意力:使用多个不重叠的块来限制信息交互。 现有的稀疏注意力机制通常是上述5种基于位置的稀疏注意力机制的复合模式(图3-5)。 图3- 5 典型的稀疏注意力模型 Star-Transformer使用带状注意力和全局注意力的组合,它只包括一个全局注意力节 点和宽度为3的带状注意力,其中任意两个非相邻节点通过一个共享的全局注意力连接,相 邻节点则直接相连。Longformer使用带状注意力和内部全局节点注意力的组合,此外,它 将上层中的一些带状注意力头部替换为具有膨胀窗口的注意力,在增加感受野的同时并不 增加计算量。ETC(扩展Transformer结构)使用带状注意力和外部全局节点注意力的组 合,还包括一种掩码机制来处理结构化输入,并采用对比预测编码进行预训练。BigBird使 用带状注意力和全局注意力,并使用额外的随机注意力来近似全连接注意力。此外,它揭示 了稀疏编码器和稀疏解码器的使用,可以模拟任何图灵机,这也在一定程度上解释了为什么 稀疏注意力模型可以取得较好的结果。 44 3.应用技术架构 4 大模型的厉害之处,不仅在于它很像人类学习语言,更在于它未来会改变我们的生活和 职场。现有的大模型整体应用架构,自上而下,从简单到复杂,依次有4种。 3.1 指令工程 4. 指令工程听起来很陌生,其实就是通过图3-6中这个输入框触发的。其看上去简单,但 很考验一个人写提示(指令)的“功力”。 图3- 6 指令界面 提示的作用就是通过引导模型生成特定类型的文本。一个好的提示可以引导模型以期 望的方式生成文本。例如,如果想让模型写一篇关于全球变暖的文章,可以给模型一个提 示,如“全球变暖是一个严重的问题,因为……”,模型会根据这个提示生成一篇文章。这种 方法的优点是简单直观,缺点是需要大量的尝试才能找到一个好的提示。 3.2 函数调用 4. 函数调用是一种更深入的应用架构,它通过调用模型的内部函数直接获取模型的某些 特性。例如,可以调用模型的词向量函数获取单词的词向量。这种方法的优点是可以直接 获取模型的内部信息,缺点是需要深入理解模型的内部结构。 3.3 检索增强生成 4. 检索增强生成(RAG)是一种结合检索和生成的应用架构。在这种方法中,模型首先会 检索相关的文本,然后用这些文本作为输入,让模型生成答案。例如,如果想让模型回答一 个关于全球变暖的问题,模型可以先检索到一些关于全球变暖的文章,然后根据这些文章生 成答案。这种方法的优点是可以利用大量的外部信息提高模型的生成质量;缺点是需要大 量的计算资源,因为需要对大量的文本进行检索。 45 3.4 微调 4. 微调是一种在特定任务上进一步训练模型的应用架构。在这种方法中,模型首先会在 大量文本上进行预训练,学习语言的基本规律。然后,模型会在特定任务的数据上微调,学 习任务的特定规律。例如,我们可以在情感分析任务上微调模型,让模型更好地理解情感。 这种方法的优点是可以提高模型在特定任务上的表现,缺点是需要大量的标注数据。 3.eAI的Sora大模型 5 Opn 2024年2月16日,OpenAI发布了Sora视频生成模型技术(图3-7),报告揭示了其背 后的强大训练思路和详细的技术特性。 图3- 7 文生视频模型Sora的作品 DALL·E3(图3-8)是OpenAI在2023年9月发布的一个文生图模型。相对于同类产 品的Midjourney以及StableDifusion,DALL·E3最大的便利就是用户不需要掌握提示 的写法,直接自然语言描述即可,甚至还可以直接说出想法,DALL·E3会根据人类想法自 动生成提示词,然后产生图片。这对于刚刚入门人工智能绘画的人来说,是非常友好的。 图3- 8 DALL·E3文生图模型 3.1 Sra技术报告分析 5.o Sora模型不仅展现了三维空间的连贯性、模拟数字世界的能力、长期连续性和物体持 久性,还能与世界互动,如同真实存在。其训练过程获得了大模型的灵感,采用扩散型变换 器模型,通过将视频转换为时空区块的方式,实现了在压缩的潜在空间上的训练和视频生 成。这种独特的训练方法使得Sora能够创造出质量显著提升的视频内容,无须对素材进行 46 裁切,直接为不同设备以及原生纵横比创造内容。Sora的推出,无疑为视频生成领域带来 了革命性的进步,其技术细节值得每一位从业者细致研究。 Sora的技术报告中有OpenAI 的训练思路以及Sora详细的技术特性。简单来说,Sora 的训练量足够大也产生了类似涌现的能力。 3.2 Sra的主要技术特点 5.o Sora的主要技术特点如下。 (1)三维空间的连贯性:Sora可以生成带有动态相机运动的视频。随着相机的移动和 旋转,人物和场景元素在三维空间中保持连贯的运动。 (2)模拟数字世界:Sora能模拟人工过程,如视频游戏。Sora能够同时控制Minecraft (游戏网站)中的玩家,并高保真地渲染游戏世界及其动态。通过提及Minecraft的提示,可 以零样本地激发Sora的这些能力。 (3)长期连续性和物体持久性:对视频生成系统来说,Sora能够有效地模拟短期和长 期依赖关系。同样,它能在一个样本中生成同一角色的多个镜头,确保其在整个视频中的外 观一致。 (4)与世界互动:Sora有时能够模拟对世界状态产生简单影响的行为。例如,画家可 以在画布上留下随时间持续的新笔触,或者一个人吃汉堡时留下咬痕。 3.3 Sra的模型训练过程 5.o Sora的训练受到大模型的启发。这些模型通过在互联网规模的数据上进行训练,从而 获得广泛的能力。其模型训练过程主要包括如下内容。 (1)Sora实际是一种扩散型变换器模型,它首先将视频压缩到一个低维潜在空间中,然 后将这种表现形式分解成时空区块,从而将视频转换为区块。 (2)训练了一个用于降低视觉数据维度的网络。这个网络以原始视频为输入,输出 在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练,并在此 空间中生成视频。还开发了一个对应的解码器模型,它能将生成的潜在表示映射回像素 空间 ( 。 3)对于给定的压缩输入视频,提取一系列时空区块,它们在变换器模型中充当词元。 这种方案同样适用于图像,因为图像本质上是单帧的视频。基于区块的表示方法使Sora能 够针对不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理过程中,可以通过在 适当大小的网格中排列随机初始化的区块来控制生成视频的大小。 (4)随着Sora训练计算量的增加,样本质量有了显著提升。Sora训练时没有对素材进 行裁切,使得Sora能够直接为不同设备以其原生纵横比创造内容。 (5)针对视频的原生纵横比进行训练,可以提高构图和取景的质量。训练文本到视频 的生成系统需要大量配有文本提示的视频。应用了在DALL·E3 中引入的重新字幕技术 到视频上。 (6)与DALL·E3 相似,也利用了GPT 技术,将用户的简短提示转换成更详细的提 示,然后发送给视频模型。 Sora展现的三维空间连贯性和长期物体持久性,提升了视频内容的真实感。通过模拟 47 数字世界和与世界互动,Sora能够创造出富有创意的视频内容。Sora的独特训练方法及其 对不同纵横比的原生支持,标志着视频生成技术的一个新时代。 【作业】 1. 大模型的底层逻辑包括() 等。近年来,大模型取得显著进展,提高了惊人的涌 现能力。 ①训练机制②应用场景③数据结构④深度学习架构 A.①③④ B.①②④ C.①②③ D.②③④ 2. 简单来说,GPT 大模型生成文本结果的原理,就是通过( ), 从而生成连贯的文 本。这一点,和人类说话或写文章是类似的。 ①预测下一个单词(频率) ②学习语言的规律 ③依据语言语法词典④根据已有的语境(上文) A.②④① B.①②③ C.②③④ D.②①③ 3. 在模型训练过程中,GPT 会阅读大量甚至是数以亿计的文本数据,从中学习到这些 文本中非常复杂的( )。这就是为什么GPT 模型可以生成非常自然、连贯文本的原理。 A. 语法规则B. 计算精度C. 对话成分D. 语言规律 4.GPT 模型的内部结构由多层神经网络组成,每一层神经网络都可以抽取文本的某种 特征,例如各层神经网络可能分别抽取出( )。 ①单词的拼写规律②句子的语法规律 ③语言的编写规律④语言词性的规律 A.①③② B.①②③ C.①④② D.②③④ 5. 所谓大模型才具备的() 能力,就是模型规模必须得增大到一定程度,比如至少 百亿级,才会显现的能力。 A. 语音B. 突现C. 酱油D. 数学 6. 所谓() 能力,简单来说就是,对于一个预训练好的大模型,迁移到新任务上时, 只需要给模型输入几个示例(输入—输出对), 模型就能为新输入生成正确输出。 A. 上下文学习B. 造句组词C. 提取摘要D. 撰写诗歌 7. 已经有很多成系列的GPT 模型都属于() 的语言模型,就是根据当前输入预测 下一个词,然后将预测结果和输入拼接再当作模型的输入预测下一个词,这样循环往复。 A. 成分分析B. 葫芦模仿C. 指令微调D. 自回归类 8.( )是一种通过在由(指令,输出)对组成的数据集上进一步训练大模型的过程, 以增强大模型的能力和可控性。其中,指令代表模型的人类指令,输出代表遵循指令的期望 输出。 A. 成分分析B. 葫芦模仿C. 指令微调D. 自回归类 9. 在自然语言处理场景中,用百度百科、维基百科上的数据、新闻等训练一个GPT 模 型,直接拿来做对话任务,这个就是( ), 即完全的无监督学习。 A. 少样本B. 零样本C. 复杂样本D. 海量样本 10. 在模型训练中,若发现其中的内容胡说八道的有点多,于是找一些人标注少量优质 48 数据喂进去,这就是( )。之后的问题就是,这种情况下到底应该标注哪些数据? A. 少样本B. 零样本C. 复杂样本D. 海量样本 11.2021 年8月,李飞飞等学者发表了一份研究报告,详细描述了大规模预训练模型面 临的机遇和挑战。文章中大模型被统一命名为“( )”,肯定了它对智能体基本认知能力 的推动作用。 A. 文本模型B. 组态模型C. 样本模型D. 基础模型 12.( )年Transformer架构的提出,使得深度学习模型参数突破了1亿,BERT 网 络模型超过3亿规模,GPT-3模型超过百亿,大模型蓬勃发展,已经出现多个参数超过千亿 的大模型。 A.1946 B.2012 C.2017 D.2023 13. 参数量多,学习的数据量更多,模型的() 能力更强,这种能力通俗来讲就是一 专多能,可以完成多个不同的任务。 A. 映射B. 泛化C. 综合D. 演化 14. 在有限的算力条件下训练或推理一个百亿量级的大模型是不太现实的,无疑要在 训练和推理两个阶段采用一些优化策略,包括( ), 来解决此类问题。 ①自我监督学习②复杂构思③微调阶段④先进训练方法 A.①③④ B.①②④ C.①②③ D.②③④ 15. 人类和动物能够通过() 方式学习世界知识,可以假设这里面蕴含的潜在能力 构成了常识的基础,这种常识能够让人类在陌生的环境下完成任务。 ①计算②观察③简单交互④无监督 A.②③④ B.①②③ C.①②④ D.①③④ 16.( )需要融合不同学科的观点,包括认知科学、系统神经科学、最优控制、强化学 习以及传统人工智能等,将它们与机器学习的新概念相结合。 A. 虚拟环境B. 世界模型C. 模拟现实D. 增强现实 17. 所谓( ), 包括文本、图像、视频、音频等。顾名思义,研究的是这些不同类型的 数据的融合问题。 A. 综合模式B. 复杂元素C. 多媒体D. 多模态 18. 多模态大语言模型是一个新的研究热点,它利用强大的() 作为大脑来执行多 模态任务,表明了一条通往人工通用智能的潜在道路。 A.Sora B.LLM C.DLM D.MLLM 19.LLaMA 是() 公司的开源大模型,它使用基于Transformer架构构建的仅由解 码器组成的网络结构。根据初步测试,它可以胜过参数量更大的GPT-3,这让人们一直很 期待。 A.Meta B.OperAI C. 腾讯D. 阿里 20. 在Transformer架构中,自注意力机制占用了大量的计算设备内存,并消耗了大量 的计算资源,因此,如何优化自注意力机制的() 是大模型面临的重要问题。 ①时空复杂度②计算经济性③算力水平④计算效率 A.①② B.③④ C.①④ D.②③ 49 【实践与思考】熟悉阿里云大模型“通义千问” “通义千问”是阿里云推出的大规模语言模型(地址:h//tngylyc/,图3-9)。 tps:oi.aiun.om2023年4月11日,“通义千问”大模型在阿里云峰会上首次揭晓,并在之前一周开启了企业 邀请测试,上线了测试官网。初次发布后的几个月内,“通义千问”持续迭代和优化。 到2023年10月31日,在当年的云栖大会上,0版本。 阿里云正式发布了通义千问2. 这一版本采用了千亿参数的基础模型,其在阅读理解、逻辑思维等多方面的能力有显著提 升。同时,通义千问2.用户可以通过下 0还同步推出了支持语音对话等功能的App版本, 载App体验。自首度发布以来,“通义千问”短时间内实现了重大技术升级和功能扩展,体 现了阿里云在人工智能领域的研发实力与创新能力。 图3- 9 “通义千问”登录界面 1.实验目的 (1)熟悉阿里云“通义千问”大模型,体会“一个不断进化的AI大模型”的实际含义。 (2)探索大模型产品的测试方法,提高应用大模型的学习和工作能力。 (3)熟悉多模态概念和多模态大模型,关注大模型产业的进化发展。 2.工具/准备工作 在开始本实验之前,请认真阅读课程的相关内容 。 需要准备一台带有浏览器,能够访问因特网的计算机 。 3.实验内容与步骤 大模型产品如雨后春笋,虽然推出时间都不长,但进步神速。阿里云的“通义千问”大模 型开宗明义“不断进化”,很好地诠释了大模型的发展现状。请在图3-9所示界面单击“立即 使用”,开始我们的实践探索活动(见图3-10 )。 请尝试通过以下多个问题体验“通义千问”大模型的工作能力,并做简单记录。 50 (1)常识题:例如院校地址、专业设置、师资队伍、发展前景等。 问: 答: 评价:□完美□待改进□较差 (2)数学题。例如:动物园里鸵鸟和长颈鹿的总数量为70,其中鸵鸟脚的总数比长颈 鹿脚的总数多80 只。问:鸵鸟有多少只? 长颈鹿有多少头? 图3-10 “通义千问”对话界面 答: 问: 答: 评价:□正确□待改进□较差 (3)角色扮演。例如:现在你是某电商平台的一位数据分析师。麻烦给我整理一份数 据分析报告的提纲,300 多字,分析前次电商促销活动效果不如预期的可能原因。 答: 问: 答: 评价:□正确□待改进□较差 (4)文章生成。例如:请问,AIGC 的创业机会有哪些? 2024 年, 51 答: 问: 答: (5)程序代码。请用Python语言写一个冒泡程序。 答: 问: 答: 注:如果回复内容重要,但页面空白不够,请写在纸上,粘贴如下。 -- 请将丰富内容另外附纸粘贴于此 -- 4.实验总结 5.实验评价(教师)