七月初,OpenAI 一篇博文让AI智能体的热潮席卷全球,业界对 AI 智能体的兴趣达到了一个新的高度。

智能体被视为大模型之后的又一热点。如在雷峰网公众号 AI 科技评论之前“具身智能十人谈”栏目对联想 CTO 芮勇的专访中,芮勇就认为,AI 发展的三部曲是从小模型到大模型,再到智能体。这也是联想很早就关注到了 OpenAI,并快速跟进智能体研究的原因。

首先要搞明白一个问题:AI 智能体和我们熟悉的 AI 助手到底有什么不同?

表面上看,它们似乎都是帮助我们完成任务的工具。可 LangChain 的创始人 Harrison Chase 告诉我们,差别其实非常大。

AI 智能体指的是一个可以观察周遭环境并作出行动以达致目标的自主实体。通俗地说,就是一个具备 AI 能力的主体,可以是硬件也可以是软件,但一般都是软件程序,比如 LangChain。

LangChain 是一个开源框架,它的特别之处在于,你只需几行代码就可以快速搭建 AI 应用。这让创建复杂的智能体变得像搭积木一样简单。

Harrison Chase 创立了同名公司 LangChain 后,还陆续推出了 LangGraoh 和 LangSmith 用于解决更复杂的问题。

问题来了:这些智能体真的比 AI 助手更强大吗?

对此,Harrison Chase 的观点非常明确。他认为,AI 助手的核心在于辅助人类做决策,而智能体的核心则是自主行动,独立决策。

AI 助手就像副驾驶座上的帮手,帮你指路、拿东西;而 AI 智能体则是司机,它能够自己决定路线和速度,独立工作、处理一系列任务,完全不需要人类的每一步指引。

早期的 AI 智能体,比如 BabyAGI 和 AutoGPT,曾被质疑为换汤不换药的 AI 助手炒作版。因为它们的任务过于笼统、缺乏明确的规则,而实际上,企业真正需要的是能够根据具体需求定制的智能体。

而当今正火热的另一个概念“具身智能”,其本身也是一种有身体并支持物理交互的智能体。LangChain 智能体是旨在增强 LLM 能力的强大组件,使它们进行决策和采取行动,从而实现更高级的智能形式。

Harrison Chase 把从用户输入到输出,LLM 在调用中处理和流转信息的整个过程称为“认知架构”,并表示定制的认知架构能让 AI 智能体根据需求反复执行相同的任务,自动化大量繁琐的事务,实现用户操作的极致简化。

当然,AI 智能体能做的不止是流水线工作这么简单,在帮助用户给繁琐的工作做减法的同时,Harrison Chase 还特别关注用户体验,通过定制做了新的加法。

一方面,AI 智能体能和用户互动,给用户更贴心的私人定制服务,另一方面它们还能根据用户反馈不断优化,越用越智能,让用户可以完全放手丢给 AI 智能体去处理。

不过,对于那些目标是做通用认知架构的企业来说,没必要费心去提升认知架构的水平。只有那些盯准定制化需求的企业才需要像上个世纪的啤酒厂商一样,必须花大力气去搞自己的发电系统,才能让自己的啤酒味道更好。

目前,AI 智能体的研究仍然处于起步阶段,普林斯顿的研究表明,他们的智能体能解决 12.5%的 GitHub 问题,而依赖检索增强生成(RAG)时只有3.8%。

但是 Harrison Chase 非常看好 AI 智能体在客户支持和编码方面的潜力,尤其是编码。

在成熟的AI智能体的协助下,人人都能成为软件开发工程师。

一个不会写代码的设计师,只要告诉 AI 智能体想要一款特定功能的应用程序,智能体就能根据需求自动生成代码,把创意变成现实。这将彻底改变我们工作和创造的方式。

Harrison Chase 认为未来的工作,将不再被日常琐事困扰,而是让 AI 智能体承担繁重的任务,人们只需要专注于创造和享受生活。

在红杉资本的播客中,Harrison Chase 还综合技术和产品,分享了更多他关于 AI 智能体的训练、演变和未来前景的见解。

完整播客内容可以点击以下链接一键收听,雷峰网也对播客内容做了不改原意的精编处理,整理出文字版提供给大家:

https://www.sequoiacap.com/podcast/training-data-harrison-chase/

AI 智能体的发展

Sonya Huang:智能体(Agent)是当前大家都非常关注的话题。自从 LLM(大语言模型)兴起以来,你一直在智能体构建的前沿。能给我们介绍一下智能体的定义吗?

Harrison Chase:要定义智能体其实有些棘手。人们可能对它有不同的理解,这很正常,因为我们还处在 LLM 和智能体相关发展的早期阶段。

我个人的理解是,智能体是由LLM决定应用程序的控制流程。

举个例子,在传统的 RAG(检索增强生成)链中,流程是预设的:生成搜索查询、检索文档、生成答案,最后反馈给用户。

而智能体则将 LLM 放在中心,让它自主决定下一步的行动。有时它会发起搜索,有时直接回复用户,甚至可能多次查询,直到得出答案。LLM 能动态决定整个流程。

工具的使用也是智能体的重要特征。当 LLM 决定行动时,它通常会调用不同的工具来实现。此外,记忆也是关键,当 LLM 确定下一步时,它需要记住之前的操作。

总的来说,智能体的核心就是让 LLM 决定应用程序的控制流程。

Pat Grady:你提到的很多都和“决策”有关,我想知道智能体是否就是一种行动方式?这两者是否相辅相成?智能体的行为是否更偏向某一方面?

Harrison Chase:我认为它们确实是相辅相成的。智能体的很多行为本质上是在决定如何采取行动,而这个过程的难点在于找到正确的行动。因此,解决“决策”问题通常也能解决“行动”问题。一旦决策确定,LLM 系统就会执行相应的行动并反馈结果。

Sonya Huang:智能体与链的主要区别在于 LLM 自主决定下一步,而不是预先设定步骤。这种区分是否准确?

Harrison Chase:是的,这是一个很好的描述。不过,实际上有不同的层次。比如,简单的路由器可能做的是链中的路径选择,虽然 LLM 依然在决策,但这只是基础应用。而完全自主的智能体则是另一种极端。整体来看,确实存在一些细微的差别和灰色地带。

Sonya Huang:明白了,智能体的范围从部分控制到完全自主决策都有,这很有趣。你觉得 LangChain 在智能体生态系统中扮演了什么角色?

Harrison Chase:我们现在的重点是让人们更容易创建介于这两者之间的智能体。我们发现,最有效的智能体通常位于这个中间地带。尽管完全自主的智能体吸引人,且已有原型,但它们常常偏离预期。因此,我们的工作集中在“编排层”,以便构建灵活但仍有一定约束的智能体。如果你想深入了解,我们可以再讨论。但总的来说,LangChain 的愿景是成为一个编排框架。

Sonya Huang:我记得在2023年3月左右,像 BabyAGI 和 AutoGPT 这样的自主智能体引起了很多关注,但它们的首批迭代似乎没有达到人们的期望。你认为原因是什么?现在智能体的炒作周期处于什么阶段?

Harrison Chase:确实,AutoGPT 的出现开启了智能体的炒作周期,尤其是在 GitHub 上受欢迎。这个热潮从 2023 年春季持续到夏季,之后稍微降温。到了 2024 年,我们开始看到一些实用的应用,比如 LangChain 与 Elastic 的合作,推出了 Elastic Assistant 和 Elastic Agent 等生产级智能体。这些应用,如 Klarna 的客户支持机器人,引发了更多讨论。此外,Devon 和 Cira 等公司也在智能体领域进行尝试。

关于 AutoGPT 未能完全成功的原因,我认为主要是它们过于笼统,缺乏明确的任务和规则。企业希望智能体能完成更具体的工作,而不仅仅是模糊的自主智能体。因此,我们看到的智能体更多像是定制的认知架构,尽管灵活,但需要更多的工程投入和开发时间,这也是这些系统一年前还未出现的原因。

定制认知框架

Sonya Huang:你前面提到了“认知架构”,我很喜欢你对它的思考方式。能否解释一下,什么是认知架构?我们应该如何理解它?有没有一个合适的思维框架?

Harrison Chase:是的,我理解的认知架构,基本上是指在使用大语言模型(LLM)时,你的系统架构是什么样的。

如果你正在构建一个应用,其中涉及多个算法步骤,你是如何利用这些算法的?你是否用它们生成最终答案?还是用它们在不同任务间进行选择?是否有非常复杂的分支,甚至包含多个循环?

这些都是认知架构的不同表现形式。认知架构其实就是指,从用户输入到输出,LLM在调用过程中如何处理和流转信息。

尤其是在把智能体投入生产时,我们发现流程通常是根据具体应用需求而定制的。

例如,某个应用可能需要先进行一些特定的检查,再执行几个步骤,每个步骤又可能包含循环或分支。这就像是你在画一张流程图,而这种定制化的流程越来越普遍,因为人们希望智能体在应用中更可控。

我之所以称它为“认知架构”,是因为LLM的核心优势在于它的推理能力,你可以通过编码这种认知心理模型,将其变成软件系统中的某种架构。

Pat Grady:你觉得这是未来的发展方向吗?我听到了两点,一是非常定制化,二是它听起来更像是硬编码的。你认为这是我们当前的方向,还是暂时的解决方案?未来会出现更优雅的架构,或者一系列标准化的参考架构吗?

Harrison Chase:这是个很好的问题,我花了很多时间在思考这个。我认为,在极端情况下,如果模型在规划上非常强大且可靠,你可能只需要一个简单的 for 循环,反复调用 LLM 来决定下一步该做什么,然后执行操作并再次循环。

所有你希望模型遵循的约束都可以通过提示传达,而模型也会按你预期的方式执行。尽管我相信模型在推理和规划方面会越来越好,但我不认为它们会完全取代手动构建的架构。

首先是效率问题。如果你知道某个步骤总是需要在另一步骤之后执行,那么你可以直接把它们按顺序安排好。

其次是可靠性,尤其是在企业环境中,人们需要一定的保障,确保关键步骤按预期执行。

因此,我认为虽然构建这些架构可能会变得更容易,但它们仍然会有一定复杂性。

从架构的角度看,你可以认为“在循环中运行 LLM”是一种非常简单但通用的认知架构。而我们在实际生产中看到的更多是定制化、复杂的架构。

我觉得随着时间推移,通用规划和反思功能会被直接训练到模型中,但那些需要高度定制的规划、反思和控制功能依然不会被取代。

Sonya Huang:可以这样理解:LLM可以完成通用的智能体推理,但在具体领域中,你还需要定制化的推理能力。这些是无法完全内置到通用模型中的。

Harrison Chase:完全正确。自定义认知架构的核心思想在于,你让人类来承担规划责任,而不是完全依赖 LLM。

尽管某些规划功能可能会越来越接近模型和提示,但很多任务的规划过程依然复杂,无法完全自动化。我们还需要时间,才能发展出高度可靠、即插即用的解决方案。

用户体验设计

Sonya Huang:我相信智能体将成为人工智能的新潮流,我们正从 AI 助手转向 AI 智能体。你同意吗?为什么?

Harrison Chase:我基本同意。智能体的潜力在于,传统的 AI 助手依赖人类输入,任务能力有限。而智能体能更独立地行动,偶尔与用户互动,这使它们能自主处理更多任务。

但赋予它们更多自主性也带来了风险,例如可能出现偏差或错误。因此,找到自主性与可靠性之间的平衡将是一个重要的挑战。

Pat Grady:你在 AI Ascent 上提到了用户体验。通常,我们认为它与架构位于光谱的两端——架构是幕后工作,而用户体验是前端展示。

但现在似乎情况有所不同,用户体验实际上可以影响架构的有效性。比如,当出现问题时,你可以像 Devin 一样,回溯到规划过程中出错的地方。

你能谈谈用户体验在智能体或 LLM 中的重要性吗?另外,你觉得有哪些有趣的发展?

Harrison Chase:用户体验在当前非常重要,因为 LLM 并不完美,时常出错。聊天模式特别有效,它允许用户实时查看模型的反应,并及时纠正错误或追问细节。虽然这种模式已成为主流,但它的局限在于依然需要用户的持续反馈,更多是一种“助手”的体验。

如果能减少用户的介入,让 AI 自动完成更多任务,将带来巨大的变革。

不过,如何在自动化和用户参与之间找到平衡是个难题。一些有趣的想法正在尝试解决这个问题。例如,创建一个智能体透明度列表,让用户清晰了解AI执行的每一步。如果某个步骤出错,用户可以直接回溯并调整指令。

另一个创新的想法是引入“收件箱”体验,让智能体在后台并行运行,当需要人类帮助时,它可以像发邮件一样提醒用户,这样用户就可以在合适的时机介入,而不必全程监控。

在协作方面,智能体可以先起草文档,用户作为审阅者提供反馈。实时互动的体验也很吸引人。

例如,用户在评论时,智能体能够立即修复问题,就像在 Google Docs 中一样。这种互动方式能够增强用户体验,使AI真正成为高效的工作伙伴。

Pat Grady:你提到的关于智能体如何从交互中学习,真的很有意思。如果我每次都要重复给同一个反馈,那体验就会变得很糟糕,对吧?系统该如何提升这种反馈机制?

Harrison Chase:确实!如果我们不断给智能体相同的反馈,而它却不改进,那无疑会让人沮丧。因此,系统的架构需要能够从这些反馈中学习,不仅仅是修复当前的问题,还能积累经验,避免将来再犯。

这方面的进展虽然还处于早期阶段,但我们已经花了很多时间在思考这些问题上,并相信随着技术的进步,智能体会变得越来越“聪明”,从而带来更流畅的用户体验。

让啤酒变得更好

Sonya Huang:在过去六个月,智能体领域取得了显著进展。普林斯顿的研究表明,他们的智能体能解决 12.5% 的 GitHub 问题,而依赖检索增强生成(RAG)时只有 3.8%。

尽管有所进步,但 12.5% 仍不足以取代实习生。你认为智能体的发展到了哪个阶段?它们能否在面向客户的环境中可靠部署?

Harrison Chase:是的,SWE 智能体相对通用,可以处理多种 GitHub 问题。定制智能体的可靠性虽然没有达到“99.999%”,但已经足够在生产环境中使用。例如,Elastic 的智能体已在多个项目中应用。虽然我没有具体的可靠性数据,但它们足够可靠,可以上线。通用智能体面临更大挑战,需要更长的上下文窗口和更好的推理能力才能广泛应用。

Sonya Huang:你提到过思路链(Chain of Thought)等技术,能分享认知架构对智能体性能的影响吗?你认为最有前途的认知架构是什么?

Harrison Chase:AutoGPT 等项目没有成功的一个原因是早期 LLM 无法明确推理第一步该做什么。思路链等技术为模型提供了更好的推理空间。

姚舜宇的 ReAct 论文是第一个专门用于智能体的认知架构之一。ReAct 结合了推理和行动,让模型不仅执行动作,还能进行推理,从而提高其能力。现在,随着模型训练的深入,显式推理步骤变得不再那么必要。

当前主要挑战在于长期规划和执行,模型在这方面表现不佳,需要认知架构帮助生成计划并逐步执行。反思则帮助判断任务是否完成。

总的来说,规划和推理是目前最重要的通用认知架构,未来随着训练改进,这些问题将得到更好的解决。

Sonya Huang:你提到杰夫·贝索斯说过“专注于让你的啤酒更好”。这让我想到早期许多啤酒厂选择自己发电。今天很多公司面临类似问题:是否需要控制认知架构来提升业务?构建和优化这些架构真的能“让你的啤酒更好”,还是应该放弃控制,专注于用户界面和产品开发?

Harrison Chase:这取决于你构建的认知架构类型。如果是通用架构,可能不会直接提升业务。未来,模型提供商会专注于通用的规划和认知架构,企业可以直接使用这些来解决问题。但如果是高度定制的架构,反映了特定的业务流程或最佳实践,那它确实能提升业务,尤其在依赖这些应用的领域。

定制的业务逻辑和认知模型可以显著提高系统表现,个性化后更加精确和高效。尽管用户体验和界面设计依然重要,但定制化智能体显然是企业的一个重要优势。我认为通用和定制之间有很大的区别。

编排和可观察性LangSmith and LangGraph

Sonya Huang:我们能聊聊 LangSmith 和 LangGraph 吗?你们解决了哪些问题?特别是在智能体管理方面,你们的产品如何帮助人们更好地管理状态和提高智能体的可控性?

Harrison Chase:当然可以。LangChain 的推出解决了关键问题,尤其是标准化各个组件的接口。这让我们能够与多种模型、向量存储、工具和数据库进行广泛集成,这也是LangChain受欢迎的重要原因。

LangChain 还提供了一系列高级接口,使用户可以轻松使用功能,如 RAG(检索增强生成)和 SQL 问答,同时动态构建链的运行时间也较短。我们把这些“链”视为有向无环图(DAG),这一点很重要。

LangGraph 解决了与可定制和可控的循环元素相关的问题。循环引入了新挑战,比如设计持久化层,以便恢复状态并让循环在后台异步运行。因此,我们关注如何有效部署长期、循环和人机交互的应用程序。

关于 LangSmith,自公司成立以来我们就一直在研究它,专注于 LLM 应用的可观察性和测试。

我们发现,LLM 作为核心时,其固有的不确定性使得可观察性和测试尤为重要,以确保能自信地投入生产。LangSmith 的设计使其能够与 LangChain 无缝配合。

此外,LangSmith 还提供了提示中心,帮助用户管理和手动审查提示。这在整个过程中显得尤其重要,因为我们需要明确 LLM 输出的新内容。

可观察性是 LLM 的显著特征,而测试的复杂性也在增加。因此,我们希望人们能更频繁地审查内容,而不仅仅局限于传统的软件测试。LangSmith 提供的工具和路由正是为了解决这些挑战。

可观察性

Pat Grady:你是否有一种启发式的方法来评估现有的可观察性、测试和填空,看看它们在多大程度上适用于 LLM?哪些特征使得现有 LLM 与之前的模型有显著不同,以至于你们需要开发新产品、新架构或新方法?

Harrison Chase:是的,这确实是一个值得深入思考的问题。尤其是在可观察性和测试方面,LLM 的复杂性让我们必须创新。虽然像 Datadog 这样的工具可以很好地监控,但要深入分析多步骤的应用程序,LangSmith 能提供更精细的痕迹分析,帮助更好地调试和应对 LLM 的不确定性。

测试方面也很有趣。在传统软件测试中,通常只关注结果是否通过,而不进行成对比较。然而,LLM 评估中,像 LLMSYS 这种工具允许并排比较两个模型,这种方式在 LLM 测试中尤为关键。

另一个挑战是,LLM测试中你不会总是有100%的通过率,因此跟踪进展非常重要,确保你在不断进步,而不是退步。相比传统测试的通过/失败判断,LLM的测试需要更细致的跟踪和分析。

最后,人类的参与至关重要。尽管我们希望系统自动化运行,但人工干预往往更可靠。这和软件测试中简单的等式验证非常不同,我们需要引入人类判断,使测试更加精确且灵活。

软件开发的未来

Pat Grady:在深入讨论智能体构建细节前,我想问一个问题。我们的创始人唐·瓦伦丁有一个著名的提问“那又怎样?”如果自主智能体完美运作,那又怎样?这对世界有什么影响?我们的生活将如何不同?

Harrison Chase:从更高层面来看,这意味着我们人类将可以关注不同的事情。

现阶段,很多行业都依赖重复性、机械性的工作,而智能体的想法是自动化其中的大部分,从而让我们能够专注于更高层次的问题。我们可以利用智能体的输出进行更多创造性和高杠杆的工作,像公司运营中的许多职能可以外包给智能体。

你可以想象自己扮演首席执行官的角色,而智能体负责营销、销售等其他职能,自动化大量重复性工作,让你有更多时间进行战略思考或产品开发。这将使我们自由地做我们擅长的、有兴趣的事情,摆脱那些不太愿意做的机械工作。

Pat Grady:你有没有看到任何现实中的例子,或者有什么正在开发中的有趣项目?

Harrison Chase:目前两个最受关注的智能体领域是客户支持和编码。

客户支持是一个很好的例子,很多公司都需要外包这类服务,而智能体可以高效地替代这部分工作,这会非常有力。

至于编码,它更复杂,涉及许多创造性和产品定位的思考。虽然某些编码任务确实限制了人的创造力,但如果有智能体可以自动完成这些编码任务,像我妈妈有一个网站的想法但不会编程,这样的智能体就能让她把更多精力放在网站的想法和范围上,而代码部分可以自动生成。

客户支持智能体已经开始发挥作用,而在编码领域,也有许多新进展,尽管它还未完全成熟,但许多人正开展有趣的项目。

Pat Grady:你提到的编码问题很有趣,因为这是我们对人工智能抱有乐观态度的原因之一。AI有可能缩短从想法到执行的距离,让创造性的想法更容易变成现实。像 Figma 的 Dylan 经常谈论这一点。

Harrison Chase:是的,自动化可以消除那些阻碍创作的东西,这种“从想法到现实”的转换非常吸引人。在生成式 AI 时代和智能体时代,“构建者”的定义将发生变化。

今天的软件构建者大多是工程师,或者需要雇佣工程师。而未来,借助智能体和生成式 AI,构建者可以构建更多的东西,因为他们可以低成本地利用智能体,获得所需的知识和能力。这相当于让智能体商品化了情报,意味着更多人可以成为构建者。

Pat Grady:我很好奇,对于那些试图使用 LLMs 构建产品或 AI 的开发人员来说,有哪些问题是你们目前没有直接解决,但未来可能会考虑的?

Harrison Chase:是的,确实有两个主要领域。一个是模型层,另一个是数据库层。

比如,我们并不打算构建矢量数据库,但关于如何存储数据,这是个非常有趣的问题。不过,这并不是我们现在的重点。我们也不构建基础模型,也不专注于微调。

我们更多是想帮助开发者在数据管理上简化工作流程,但并不打算为了微调去搭建基础设施。

有很多公司,比如 Fireworks,正在专门做这些事,这真的很有趣。对于开发者来说,这些问题处于技术堆栈的底层。

同时,另一个值得思考的问题是,如果智能体真的像我们设想的那样变得更加普遍,将会出现哪些新的基础性问题?所以说实话,现在就说我们未来会做什么或者不会做什么还为时尚早。因为我们现在离一个完全可靠的智能体经济系统还有一段距离。

不过,有些概念已经很吸引人了,比如智能体的身份验证、授权、支付等基础设施。

想象一下,未来的某天,智能体给人类支付服务费用,而不是相反!这种场景真的让人兴奋。如果智能体真的像我们想象的那样流行起来,我们需要什么样的工具和基础设施来支持这一切?

这些问题和开发者社区中构建 LLM 应用程序的需求有些不同。LLM 应用已经在这里了,智能体正在逐步成熟,但整个智能体生态系统还没有完全成型。这会是一个非常有趣的发展方向。

Sonya Huang:你刚才提到微调,说你们目前不打算深入这个领域。看起来提示工程和微调常常被认为是互相替代的工具。你怎么看现在提示与微调的使用方式?你觉得未来的走向会怎样?

Harrison Chase:其实,我并不认为微调和认知架构是互相替代的。相反,我觉得它们在很多方面是互补的。

当你有更定制化的认知架构时,智能体每个部分或节点的职责变得更加具体明确。而在这种情况下,微调就显得格外有用。因为当你明确了每个模块的工作范围时,微调就可以进一步优化这些模块的表现。

所以我觉得微调和架构的关系并不是互相竞争的,而是各司其职,互相增强的。