1.3.5 知识、记忆、理解、表达、推理、反思、泛化和自我提升
大模型驱动的这一轮人工智能(包括Agent本身)热潮当然也会慢慢消退。然而,热潮消退的同时也代表着相关技术的日益成熟与快速发展。
目前,我们对基于大模型的Agent的发展和信心源自下面这些关键认知。
首先,大模型在预训练阶段获取了广泛的世界知识(见图1.11)。由于这一过程通过涵盖众多主题和语言的数据集进行,因此大模型能够对世界的复杂性建立一定的表征和映射关系。大模型内嵌对从历史模式到当前事件的洞见,变得擅长解读微妙的话语并对话题做出有意义的贡献,即使这些话题超出了它们最初的训练范围。这样广泛的预训练意味着,当Agent遇到新的场景或需要特定领域的信息时,它可以依赖广阔的知识基础来有效地导航和响应。这种知识基础并非静态不变;持续学习让这些知识得以充实和更新,从而保持大模型的相关性和洞察力。
图1.11 大模型不仅可以通过训练获取世界知识,而且可以注入外部知识
这些预训练时获得的知识都属于大模型这个Agent的大脑的记忆的一部分。大模型通过调整“神经元”的权重来理解和生成人类语言,这可以被视为其“记忆”的形成。Agent会结合记忆的知识和上下文来执行任务。此外,还可以通过检索增强生成(Retrieval-Augmented Generation,RAG)和外部记忆系统(如Memory Bank)整合来形成外部记忆——这是我们后面还要详细讲的重要内容。
其次,大模型极大地丰富了Agent的理解和表达能力。在此之前,虽然AI能在特定领域展现出惊人的能力,但在理解自然语言和复杂概念上总显得笨拙。大模型的出现,让AI能够理解和生成自然语言,使AI能够更深入地理解人类的沟通方式和知识体系。这些大模型被训练来理解广泛的主题和上下文,以便能够在各种情况下做出反应,并提供相应的信息和解决方案。这不仅仅是形式上的进步,更是质的飞跃。AI现在能够理解语境、把握语义,甚至在一定程度上理解复杂的人类情感和幽默,这使得Agent能够更加自然和高效地与人类交流。
再次,大模型的推理能力提高了Agent的自主性和适应性。传统的AI系统往往需要明确的指令和固定的规则,但现在的Agent,借助大模型,能够自主学习和适应。它们能学习海量的文本,理解世界的复杂性,并据此做出更加合理的决策。这种自主学习和适应的能力,让Agent看起来更像是一个能够独立思考和行动的实体,而不仅仅是一台执行预设任务的机器。这对于Agent来说意义重大,因为它们需要更好地理解自身所处的环境,并在此基础上做出合理的决策。例如,一个集成大模型的自动驾驶Agent不仅能够根据路况做出反应,而且能够理解突发事件的严重性,并据此制定策略。同样,一个集成大模型的虚拟助理不仅能够回答问题,而且能够理解用户的需求和情绪,提供更加个性化和有效的建议。
我让Agent基于ReAct框架为一张鲜花海报自动配上一个标题(见图1.12)。此时Agent会自主思考,并不断反思推演,确定是否完成所给的任务。
图1.12 一张鲜花海报
图1.13展示了Agent的自主思考过程。
图1.13 Agent的自主思考过程
此外,如同我们人类一样,学得多了,一通百通。随着大模型的参数越来越多,训练的语料越来越多,习得的知识也越来越广泛,此时大模型能力出现泛化现象。例如,在训练过程中大模型接触的英文资料较多,而某些小语种的资料较少,但是,由于各种语言都是相通的,基于广泛的理解能力,大模型在各种语言环境,即使是小语种环境中,都能够表现出色。这说明大模型可以将某些英文资料中的语言规律泛化到其他语言中。
咖哥发言
泛化是机器学习的一个重要概念,它指的是模型对未见过的数据做出准确预测或合理反应的能力。大模型中的泛化能力主要体现在以下几个方面。
■ 广泛的语言理解能力:由于大模型在训练过程中接触到各种各样的文本,它们能够理解和生成多种类型的语言,包括不同风格、话题和领域的文本。这种广泛的理解能力使得大模型在多样化的应用场景中都表现出色。
■ 强大的推理和解决问题的能力:大模型不仅能够理解文本,而且能够进行一定程度的逻辑推理。它们能够根据给定的信息做出推断、解答问题,甚至处理复杂的逻辑任务。这种能力在处理与训练数据不完全相同的新问题时尤为重要。
■ 适应新任务和新领域的能力:大模型能够快速适应新任务和新领域。即使是在训练过程中未曾接触过的任务类型,通过少量的微调,甚至不需要微调,大模型也能够表现出良好的性能。
■ 处理未知数据的能力:大模型能够对未见过的数据做出合理的反应。这包括理解新出现的词语、术语或概念,以及适应语言的自然演变。
■ 跨语言和跨文化的能力:随着训练数据的多样化,大模型在处理不同语言和文化背景的文本时的表现也更加出色。这使得大模型能够在全球化的应用环境中发挥重要作用。
然而,尽管大模型的泛化能力非常强大,但它们仍然存在局限性。例如,大模型可能在特定领域或特定类型的任务上表现不佳,或者在处理逻辑复杂、需要深层次理解的问题时出现偏差。此外,由于大模型的训练数据可能包含偏见,这种偏见也可能在大模型的泛化过程中被放大。随着技术的不断进步和研究的逐渐深入,我们可以期待大模型在泛化能力上有更大的提升。
这种泛化带给大模型更通用的能力,而通用性也为Agent提供了前所未有的创造力和灵活性。传统AI系统的行为通常比较机械,预测性强,但现在基于大模型和多模态模型的Agent通过理解和使用语言进行推理,能够针对同一主题生成新的内容(如图1.14所示,针对同一张海报,Agent运行的轮次不同,思考结果也不同,进而生成新的内容),提出新的创意,甚至在某些领域展现相当高的艺术天赋。这种创造力和灵活性以及完成各种任务的通用性能力极大地增强了Agent在各个领域的应用潜力。
最后,基于大模型的自我学习能力,Agent可以不断学习新的知识和经验,优化决策过程。这种自主学习能力是实现高度自主和适应性强的Agent的关键。
图1.14 Agent运行的轮次不同,思考结果也不同