AI智能代理的主要组成部分
理解AI智能代理的入门指南最近从基于大型语言模型的聊天机器人转向该领域现在定义为具有代理能力的系统或代理AI的变化,可以用一句老话来概括:“说少做多。”
跟上发展的速度可能会很有挑战性,特别是如果你已经有了一门现成的生意要打理。更别提发展快得让人摸不着头脑,会让你感觉像是第一天上学时的那种手足无措。
这篇文章提供了基于其组件和特征的AI代理的概述。介绍部分将对“AI代理”这一术语的构成组件进行解释,以形成一个直观的定义。定义建立之后,接下来的部分将探讨LLM应用形式因素的演变,特别是从传统的聊天机器人到代理系统的演变过程。
总的来说,关键目标是理解为什么AI智能体在AI应用开发中变得越来越重要,以及它们与基于LLM的聊天机器人有何不同。在完成本指南后,你将对AI智能体有更深入的了解,包括它们的潜在应用场景以及可能如何影响你的工作流程。
如果你是技术宅并且更喜欢动手操作,点击这里 获取最适合 AI 开发者和构建者的资源库
AI代理的主要组成部分
术语“AI代理”中的两个部分可以让我们更好地理解它的真实含义。我们先从比较简单的部分开始,也就是我们常说的AI。
人工智能(AI)指的是非生物体展现的智能形式,这些智能形式是通过计算上模仿人类智能的方式创建的,旨在完成通常需要人类智力才能完成的任务。为计算系统提供智能的主要方法是通过机器学习和深度学习技术,其中特别是神经网络的层次结构从提供的数据集中学习模式和特征。AI系统被开发出来用于检测、分类和预测任务,由于基于转换器的基础模型的有效性,内容生成因此成为了一个突出的研究领域。在某些情况下,这些AI系统达到了与人类相当的表现水平,而在某些特定情况下,它们甚至能超越人类的表现。
第二个部分,“代理人”,是一个在技术和人类的角度来看都熟悉的术语,理解这两个视角能帮助我们更清楚地了解“AI代理人是什么”。
在人类的语境中,‘代理’通常是指那些为他人、团体或组织行事的人,主要负责做出决定、收集和分享信息。代理人的职责可能有以下几点:
要理解智能代理,我们需要结合技术环境和人类社会中“代理”一词的特点,并遵循人工智能的基本原则。这种结合帮助我们理解智能代理如何以及为何能胜任通常需要人类智能和自主性的任务。
基于这一术语“AI代理”的基础概念,我们可以定义AI代理。
一个AI代理是具有环境感知能力的计算实体,能够通过输入感知环境,通过工具行动,并借助基础模型或框架进行思考,同时具备长期和短期记忆。
关键组成部分和AI智能代理的主要特性
行了,你现在就是个AI工程师了。
但在你开始着手创建下一个营收达到10亿美元的人工智能产品之前,让我们稍微退后一步,回顾一下我们是如何走到今天有了人工智能代理这一步的。我们将看看大型语言模型应用的变化,这都是在短短的时间内发生的。
LLM应用程序的形式因素变化是我们见到的现代应用中最快的转变。
大模型应用程序的形态演变
聊天机器人并不新鲜;在“generative AI(生成式AI)”这一术语出现之前,你可能就已经在一个网站上与聊天机器人互动过了。在生成式AI出现之前的传统聊天机器人与现在的AI驱动的聊天机器人在本质上是不同的。它们通常这样运作:
与大型语言模型进行聊天互动
大规模语言模型驱动的聊天机器人是第一个主流的LLM应用第一个主流的LLM应用。2022年11月30日,OpenAI发布了ChatGPT,这是一个提供简单而熟悉的传统聊天机器人界面(输入和输出窗口)的网页界面,但在这简单熟悉的界面背后是OpenAI创建并用大量网络文本训练的GPT-3.5大规模语言模型。
GPT(生成型预训练Transformer)基于2017年谷歌提出的Transformer架构。该架构利用自注意力机制来处理输入序列,在输入中使模型能够考虑每个词与其他所有词的上下文关系。
与传统聊天机器人不同,像GPT-3.5这样的大型语言模型 (LLM) 可以根据提供的输入生成类似人类的文本内容。GPT-3.5及其他基于变压器的LLM的一个关键区别在于,它们的内容生成机制不仅仅是简单的识别模式并提取特征,而是能够在提示下生成看似新颖且相关的内容。
GPT等大型语言模型驱动的聊天机器人(如ChatGPT)的引入开启了新的可能性之门,无论是为企业还是商业场景。值得注意的用例包括代码生成、内容创作、改进客户服务等。这些聊天机器人的能力标志着从传统的基于规则的聊天机器人向更灵活、更智能且功能更强大的AI助手的重大转变。
尽管这些LLM驱动的聊天机器人具备了先进的功能,它们仍然存在一些限制。其中一个重要的挑战在于个性化。这些系统难以在长时间对话或多次会话中保持个性化的互动一致性。更加令人担忧的是,LLMs生成的人类般连贯但不准确的回复。这种现象令人担忧,主要是因为这些系统开始自信地提供错误信息,这种现象现在被称为“幻觉”现象。
理解当一个大型语言模型“胡言乱语”时,它并不是出故障了,而是完全按照其训练方式生成:基于输入标记和训练数据的概率生成下一个输出标记。这个过程有时会产出听起来合理但实际上却错误的输出。
解决这些限制成为了开发更先进AI系统的关键任务,从而探索可以“固定”大型语言模型 (LLM) 输出的技术。一种突出的技术是检索增强生成或RAG。
RAG是一种方法,它利用信息检索方法来查找和提供相关数据,然后将这些数据结合用户提示,作为输入提供给大语言模型(LLM)。这个过程确保LLM生成的输出基于以上内容。
通过利用这些信息来源,RAG旨在生成更准确、更及时且与上下文相关的回答。这种方法通过将模型的响应基于可检索和可验证的数据来缓解纯LLM系统的一些局限性,例如虚构或过时的信息。
RAG(检索增强生成)简介
为了提升大型语言模型(LLM)的输出,人们采取了多种方法,其中之一就是提示工程。提示工程就是为LLM编写输入查询,以引导其输出符合预期特性,例如提高准确性、相关性和具体性。这一技术包括为LLM精心设计初始提示,以确保输出更精确、更符合语境且更符合任务需求。
一些提示工程技巧已经出现,比如情境学习、链式推理(CoT)和ReAct(理性行动)。
上下文学习利用大语言模型的泛化能力,通过提供输入输出示例来展示需要解决的任务和预期结果。这种技术主要有两种实现方式。
这个过程通常以一个没有匹配输出的输入结束。根据提供的例子,LLM会生成一个输出,该输出由提示中的输入输出对来指导和影响。
这种方法使得LLM在无需调整模型参数的情况下适应特定任务或风格的需求。相反,它依赖于模型自身的识别模式并应用于相似的新情境的能力,而不是在相同上下文内。在同一情境下,模型能够识别模式并将其应用到新的类似情况中。
虽然上下文学习提示技术让大规模语言模型能够在新任务上泛化,此后的发展,如链式思维和ReAct提示技术,则进一步利用了大规模语言模型的推理和规划能力。链式思维让大规模语言模型能够通过逐步推理过程将复杂任务分解成更小、更简单的子任务。ReAct则结合了大规模语言模型的推理能力和行动规划。
随着大型语言模型的参数规模扩大到数百亿,它们展现出了越来越复杂的新兴能力。这些能力包括高级推理能力、多步规划的能力以及工具的使用或函数的调用。
工具使用,有时称为“功能调用”,指的是LLM生成一个结构化的输出或规范,该输出或规范指定了从一个预定义的功能集中选择一个或多个功能,并为这些功能分配适当的参数值的能力。在LLM中的工具使用的能力取决于提供给LLM的描述目标或任务的输入提示,以及通常以JSON格式提供的功能定义集。
LLM会分析输入和函数定义,以决定调用哪些函数以及如何填充参数。这种结构化的输出可以被外部系统用来执行实际的函数调用。
通常,任何可以被程序化定义并调用的东西都可以被定义为带有配套JSON定义的工具,提供给大语言模型(LLM)。因此,RAG功能可以是工具,对外部系统进行API调用也可以是工具。
具有访问工具和功能调用能力的大型语言模型有时被称为“工具增强型大型语言模型”,但值得注意的是,高级推理、多步骤规划和工具使用能力的结合促成了这一过程的人工智能代理的出现。最重要的一点是人工智能代理所处的环境。人工智能代理在一个迭代执行环境中运行,该环境能够支持一个目标导向的系统,该系统可以根据之前的输出结果调整当前的行为,这与基于对话的界面不同。
一种以代理为主的互动概述
代理系统或复合AI系统目前正在兴起,作为现代AI应用的一种实现范式。这些应用相比基于LLM的聊天机器人来说更为复杂和多面。代理系统可以被定义为包含一个或多个具备自主决策能力的AI代理的计算架构,能够访问和利用各种系统资源和组件,以达成既定目标并适应环境变化。未来将提供更多关于代理系统的理解和资源。
另一个关键术语是“代理型RAG”(即代理型检索和生成),它指的是一个利用大型语言模型的路由、工具使用、推理和规划能力,同时结合基于查询和存储数据比较的信息检索方式的范式。这种系统范式能够支持开发出动态的大型语言模型应用,这些应用可以访问各种工具来执行查询、分解任务,并解决复杂问题。
要真正理解AI代理,看看它们的构成、特点和能力这一点很重要。
人工智能代理的组件和特性
人工智能代理的关键组件构成了其架构,并使其功能得以实现。这些组件协同工作,处理信息,做出决策,并与环境互动。主要包括核心处理模块、动作执行模块和感官输入模块,每个模块都在代理的操作中起着至关重要的作用。
一个智能代理是由几个集成组件组成的计算实体,包括大脑、感知和行为模块。这些模块协同工作,使智能代理能够达成其设定的目标和任务。
大脑:智能体架构的这一部分负责智能体的认知能力,包括其推理、规划和决策能力。智能体的大脑实际上是大规模语言模型(LLM)。大规模语言模型的涌现能力为智能体提供了推理、理解能力、规划等能力。同时,类似于人类,大脑组件包含了记忆、剖析和知识等不同模块。
内存模块存储了代理与其他外部实体或系统之间的交互。存储的信息可以用来指导未来的执行步骤,并根据历史交互情况采取相应行动。profile模块使代理能够根据角色特性描述来扮演某些角色,从而使代理表现出一系列行为。
位于代理脑组件中的知识模块能够存储和检索特定领域的有用信息,并在规划和采取行动以达成目标时加以利用。
行动:行动组件通过其中的模块使代理能够产生响应并调用其他系统,从而增强代理对环境和新信息的反应能力。配备大语言模型的代理可以利用大脑组件中的过程将任务分解成步骤。每个步骤都可能与代理工具箱中的一个工具相关联。凭借大语言模型的推理和规划能力,代理可以在每个步骤有效决定何时使用哪个工具。
感知功能:此组件仅负责从代理的环境中捕获和处理输入。在涉及代理系统的交互中,输入形式多种多样,但主要提供给代理的输入形式包括听觉、文本和视觉。
AI代理的特点是其独特的行为和特征,这些定义了其能力和操作模式。这些特点决定了AI代理如何与其环境互动、处理信息并实现其目标。关键特点包括自主、主动性、响应性、和互动性。
以下是对代理商关键特性的简要总结:
在我们的探索中,我们对AI代理及其特性已经有了一定的了解,甚至给出了一个工作定义。不过,值得注意的是,在当下快速发展的AI领域中,目前尚无统一的行业标准来定义AI代理。
相反,业界普遍认为,将一个系统归类为人工智能代理是存在于一个光谱或连续体上的。这种细致的看法认为,人工智能系统可以在自主性、自主性和能力方面有所不同。
这里引入了“代理型”这个概念。“代理型”指的是AI系统展示出多大程度的代理特性,这些特性可能包括:
这种基于连续体的理解方式可以更好地适应AI系统的发展,更加灵活和包容。它承认随着AI技术的进步,较为简单的AI系统和完全成熟的AI之间界限可能会越来越模糊。
新的大语言模型的应用形式在哪些方面体现了其价值和影响力?
谈到软件和应用程序开发时,我们更关注价值和影响,以及在早期对AI代理和代理系统进行探索和实验所取得的投资回报。主要而言,我们看到主要价值在于通过自动化手动流程来提高生产力。手动审批、文档和审查是大多数企业工作流程中的常见环节。代理系统可以显示出早期潜力,可以自动化——或者说“代理化”——现有工作流程中的重复性任务。
代理系统还有另一个价值在于减轻企业工作流程中决策过程的负担。当嵌入到这些系统中时,AI代理可以被设定规则和指南来指导其决策能力。但更大的价值和影响在于让普通人更接近系统,无需增加技术知识。这是因为代理系统允许以文本和图像驱动的界面作为调用和执行系统功能的主要方式,从而使来自基础模型多样化的输入能够通过自然语言来控制代理系统,降低与系统交互的技术难度。
目前玩家在[AI技术堆栈](https://mdb.link/ai_stack_link_medium )中的努力重点在哪里?
可靠性、可扩展性和性能是AI行业关键参与者重点关注的领域。这些关键参与者在努力提供解决方案的公司时,解决这些重点领域的途径包括增加基础模型中的参数数量,以提升AI代理的推理能力,或者开发工具来协调系统中AI代理所在的工作流程。
MongoDB 一直处于数据解决方案的前沿,提供全面的数据库功能和平台特性,以支持企业级和前沿代理系统的开发需求。为了帮助开发者解决代理系统在可靠性、可扩展性和性能方面的问题,MongoDB 提供了相应的功能。MongoDB 是 AI 代理和代理系统的内存管理解决方案提供商。 在代理系统中,MongoDB 在以下关键领域表现出色,包括:
看看我们的技术资料,开始用 MongoDB 来实现您的 AI 代理吧。