Agent的新思路: 构建多agent系统

  • 2025-07-29 01:22:43
  • 343

一个Agent不能解决所有问题?这篇文章深入剖析多agent系统的新思路,从协作机制到结构设计,为你揭示如何打破“单体智能”的瓶颈,实现更高效、更灵活的系统能力构建。

Anthropic团队上个月发了一篇工程博客,讲述了他们如何构建Claude的多智能体研究系统。乍一看,这篇文章似乎是一个复杂的技术话题,但仔细读下来,你会发现它其实探讨的是一个更深层次的商业和技术问题:

当单个AI的能力达到了极限,接下来我们该如何前进?

对于这个问题,Anthropic给出了一个可供参考答案:构建多智能体系统

本篇结合Anthropic的工程博客,以及个人对智能体的认知,对构建多智能体系统的原理和方法论进行探讨。

废话不多说,先从这篇工程博客的核心要点说起:

1.让多个智能体协同工作

“让多个智能体学会协作。”——这是这篇博客的核心观点。

我们可以把这种方法想象成团队合作:假设你是一个宠物公司的CEO,想了解2025年中国宠物市场的机会,以及哪些细分品类值得布局。如果只有你一个人来做这件事,即便你再聪明,工作也得一步一步来:先查宏观经济数据,再看行业报告,再到竞争对手分析,最后分析消费者的购买行为。这一套流程下来,对个人而言工作量不小,而且可能要花上几周时间。

但如果你有一个团队,事情就不一样了:

市场分析师:专注宏观趋势

行业专家:深入研究某些细分市场

数据分析师:专门解读消费者的行为模式

每个人各司其职,大家并行作业,最后汇总给你。这样做的好处是,时间缩短了,效率大大提高,做决策也能更快。通过这种方式,团队的效率就像是多智能体系统的协作:每个智能体负责一个环节,最终汇总出的结果不仅更快,还更加精确和深刻。

这种多智能体协作的方式,在复杂的研究任务中,显得尤为重要。

正如原文所说:搜索的本质是“压缩”,即从海量信息中筛选、压缩出最有用的那一撮。

而多智能体协作时,每个子智能体像是执行专员,各自从不同角度去查资料、找关键点,然后再把他们认为最重要的内容提炼出来,交给主智能体统一汇总——这恰好就是搜索的本质。

而这种协作方式,也打破了单一智能体的局限,能够通过并行处理加速任务执行,极大地提升了处理信息的深度和广度。

问题来了:这个多智能体系统,具体是如何运作的?

2.多智能体如何并行?与RAG有何不同?

AIAgent和workflow,在过去总会被人混为一谈,原因在于两者在执行任务时都表现出一定的线性流程结构,目的是协助人类按部就班地进行任务,比如搜索这个场景,可以这样拆分工作流:

接到目标→搜索信息→分析结果→给出答案

每一步都依赖上一步的完成,好处是清晰且符合人类的做事逻辑,当坏处是效率受限。

而Anthropic发现,真实的任务往往是并行的。例如问一个问题:“哪些生意在2025年最值得投资?”这不仅仅是一个简单的查询,它需要涵盖多个维度:技术趋势、商业模式、财务状况、竞争格局等,让一个智能体按部就班地深度研究,可能需要花费几十分钟。

而如果采用并行架构,这个任务的执行就可以变得更加高效:

如上图,主智能体首先分析问题,识别出几个关键的研究方向,然后创建多个子智能体,分别负责不同领域的研究。每个子智能体独立工作,可以同时调用多个搜索工具,最终主智能体汇总所有的发现,形成完整的答案。

在Anthropic的内部评估中,多智能体系统的搜索效果相比于单智能体提升了90.2%;

同时也将复杂查询的研究时间缩短了90%。

同样是信息检索,这种多智能体并行搜索的原理,跟RAG也存在明显的区别。

RAG主要有两个功能:检索信息、并引用信息生成回复。走RAG链路会让模型从大量资料中找到相关的信息,然后再用这些信息生成一个完整的回复,侧重单一智能体的信息获取能力与生成能力,这种方法会受限于单一智能体的能力,这也导致了单一智能体在Anthropic的内部评估中的落败;

而多智能体系统则像一个庞大的团队,各个智能体分别承担不同的任务,进行信息的深入探索、分析和组织,如:Researcher负责深度挖掘和收集资料;Organizer负责把收集来的信息进行整理和组织;Judge负责评估结果的准确性和质量。分工明确、各有所长,最终合作完成任务。

如果说RAG是对于相关信息的获取、梳理、生成,那多智能体还做到了对相关信息的主动探索、分析、再组织,提升的不止是检索能力,还有对信息的“认知深度”。

因此从RAG到多智能体,变化的不只是执行方式,而是AI处理信息的广度与深度。

而当AI开始协作、判断、复盘,PE的角色也需要随之升级。

3.多智能体的PE有何不同?

过去我们构建PE的核心目的,在于让模型按照指令完成某个具体的任务,因此需要手把手教学,我们的角色是“老师”;但到了多智能体系统里的PE,我们的角色不仅仅是“老师”,还是一个“项目经理”。

因为这时候不再是单个AI在干活,而是若干个智能体在协同工作,因此PE不能仅仅给一个明确的指令,而是像一个项目经理一样,去搭建一套指挥“谁应该具体做什么任务”的调度系统,由主智能体负责安排调度子智能体,且发送给子智能体的指令必须足够清晰,否则就容易出岔子。

例如Anthropic发现:主智能体如果只是给出一句模糊的指令,比如“研究半导体短缺问题”,听起来挺明确,但底下几个子智能体执行出来的内容全是各说各话、不成体系,一个跑去复盘2021年的车规芯片危机,两个重复研究了2025年的半导体供应链,大家都很努力,但努力的方向完全没对齐。

如果是个真实项目,大概率会造成生产事故。

因此在多智能体系统中,我们构建PE,就是要确保我们构建的PE,能够让主智能体搞懂用户的目标,还得搞清楚,这个目标能不能拆、该怎么拆、谁负责做什么任务、谁和谁之间不能重复,每个子智能体的专长分别是什么?具体负责什么?任务边界在哪里?

每一个细节,都会影响整个系统的效率和准确率。——这听上去是不是就像项目经理?

一个有效的多智能体PE,就是需要让整个系统协作顺畅、稳定产出。

那如何构建这样的PE?我们可以看看Anthropic的实践总结:

1.学会站在智能体的角度思考

这是Anthropic老生常谈的方法论了,我们需要观察每一步的决策路径,发现失败模式,为提示优化提供直观依据

2.教会主智能体清晰地分派任务

主智能体需要清晰地描述任务目标、输出格式、使用工具、信息来源以及任务边,否则子智能体容易重复、遗漏或跑偏

3.根据任务复杂度调整调用规模

不同任务需要匹配不同数量和类型的子智能体,例如简单事实查找只需一个智能体+3-10次工具调用,而复杂研究可能要10+子智能体,进行分工协作

4.慎重选择调用工具

要指导智能体调用合适的工具,且优先选择专业工具

5.智能体自我复盘优化机制

可以用智能体来复盘智能体,出错了让另一个智能体来复盘分析、优化,通过失败案例分析、提示改写、工具描述优化,让系统实现持续改进

6.由广度到深度的搜索策略

先进行广泛探索,再聚焦深入,是更高效的研究路径,提示中应引导智能体避免一开始就钻牛角尖

7.思考过程显性表达

通过让智能体输出“思考过程”,主智能体能更好地规划、评估任务路径与资源分配

8.任务并行,提速增效

包括主智能体并行启动多个子智能体,子智能体同时调用多个工具,有效压缩任务执行时间

在上述的8条经验总结中,有一个词频繁出现:“工具”。

Anthropic在实验中发现,很多任务失败并不是因为智能体不够聪明,而是没调用正确的工具。因此多智能体系统需要检查所有可用工具,把工具用法和用户意图对上,必要时上网广泛搜索,优先选专用工具而非通用工具,且每个工具都得有明确用途和清晰说明,方便智能体作出判断,避免因为对工具的描述不清,导致智能体跑偏。

一个好用的多智能体系统,离不开PE的构建,离不开准确的工具调用。但问题又来了:

多智能体系统的构建如此复杂且如此强调“协同”,这也就意味着单个智能体如果出现判断失误,就有可能引发连锁反应,导致整个任务翻车。

针对这个问题,Anthropic又给出了怎样的解决的思路?

4.稳定运行的4个关键:复盘、兜底、迭代、渐进上线

为了让多智能体系统在实际运行中更稳、更可控,Anthropic在工程层面做了四项关键设计:

1.复盘:智能体自我优化机制(LetAgentsImproveThemselves)

按照以往的经验,一旦AI出错,就得我们来进行优化,而Anthropic并不满足于让AI只是被动执行,而是尝试让AI具备一种“自我反馈、持续改进”的能力。

从结果看,这种自我优化机制显著提升了系统的表现,任务完成时间缩短了约40%。

具体流程上图亦有提及:当一个子智能体在执行中失败,这个系统会自动调用另一个“诊断型智能体”,分析失败的原因,比如是不是搜索方向错了、工具调用混乱等等,诊断的同时也给出优化建议。

复盘当然不能只找出问题,因此Anthropic还将这些失败案例和改进方案,都投喂回系统中积累成经验,供未来的任务参考。

这又有点像我们人类的做法:我们不可能从不犯错,但是出了问题能快速复盘、调整策略、避免再犯,Anthropic做的,就是把这种复盘机制移植到AI系统内部,让AI团队自己总结、自己成长。

如果说以前AI需要人类来发现错误并提供优化,那这套自我优化机制的意义在于:AI错了也能自己发现、自己改进、积累成经验,避免下次别再错。

2.兜底:检查点机制(Regularcheckpoints)

由于在多智能体系统中,任务往往不是一步到位的,而是需要多个智能体接力完成,因此网易中间哪一环出了问题,很可能整个任务链路就卡住了。如果任务执行一半出错,系统全部重启、从头再跑一遍,这显然不现实,尤其是在任务路径很长、成本很高的多智能体系统中(后面我们会谈及多智能体系统的成本问题)。

出错一次,就重跑一次,效率低不说,还容易引发级联故障。

Anthropic对此给出的思路是,引入类似“存档”的机制,也就是检查点机制。在任务的关键节点,主智能体会自动保存一次“系统状态”,如果后续子任务失败,系统就能从上一次成功的检查点恢复,而不是“推倒重来”。

它的意义在于:大大提升了系统的容错能力,让多智能体系统在面对复杂、不确定任务时,也具备了抗风险能力。未来这种机制可能还会进一步演进,例如智能体能自主决定什么时候该“存档”?哪个节点是“风险节点”要重点注意?这也是多智能体系统能够稳定运行的重要前提。

3.迭代:全链路Tracing日志(FullProductionTracing)

正常情况下,我们发现模型出现问题,只能知道response错了,或者知道存在这一类badcase,无法深究,只有查看这些数据对应的链路,才能搞清楚到底是哪一步出了问题?

而在多智能体系统中,任务执行链条更长、参与角色更多,一方面如果不记录链路的全过程,后续复盘无从下手;另一方面由于智能体数量较多,如果发现了问题再找对应的链路查证,效率也较低。

因此Anthropic在系统中引入了一套全链路Tracing日志,用来记录整个任务执行过程。包括每个智能体接到的任务指令、调用了什么工具、工具的响应情况、智能体中间的判断逻辑、输出的内容、收到的反馈等等,全都记录在案。

这相当于给每个智能体配了一台工作记录仪,把它做了什么、为什么这么做,都拍了下来。一旦出问题,主智能体或者运维人员就能回看工作录像,迅速定位是哪一步决策偏了、哪个工具响应错了、信息源是不是有误,从而精准调优。

而且这套日志系统不仅可以用于排查问题,也可以作为日常优化的重要数据源。比如长期观察某些工具的调用失败率高,就说明它的描述或接口可能需要优化。

因此全链路trace是支撑多智能体系统“可解释、可优化、可维护”的基础设施。没有它,系统复杂性一旦上升,就只能靠拍脑袋调试,效率低下还不稳定。

4.渐进上线:渐进式部署策略(RainbowDeployment)

由于多智能体系统本身的构建就较为复杂,因此单个智能体一次很小的更新,在多智能体系统里可能引发“连环反应”。比如改了一个子智能体的PE结构,结果导致依赖它输出的另一个智能体出现问题,整个链路报错;或者你替换了一个工具接口,旧版本的调用逻辑不兼容。

Anthropic为了解决这个问题,引入了类似互联网产品常用的渐进式部署策略(又译作“彩虹部署”):新旧版本并行跑,先在小范围测试新版的稳定性,再逐步扩大范围,直到全面切换,确保新版本的更新平稳落地,不影响用户体验。

渐进式部署不仅让更新更安全,也可以给我们更多试错空间,我们可以放心地试验新prompt、新链路的输出效果,引入新开发的工具插件,也不必太担心翻车造成太大的影响。

毕竟多智能体系统,已经不是单个的大模型,而更像一个具体的产品,所以更新策略要像产品一样稳扎稳打,避免翻车。

5.现阶段多智能体系统的缺陷

上面梳理了一些多智能体系统的原理、方法论和优势,难道多智能体就是AIAgent的版本答案?

并非如此,至少目前,这不算一个通用的、适用于绝大多数场景的解决方案。

原因主要有三个,首先就是:贵,真的太贵了。

Anthropic的统计数据显示,多智能体系统的token消耗量,是普通chat的15倍。也就是原来一个任务花1块钱,用多智能体系统要花15块,而且这还只是算token的账。如果再加上工具调用、子智能体并发调度这些操作层的资源开销,整体成本会更高。

其次,多智能体系统并非在所有场景下,都能稳稳胜过单个智能体。

一些需要所有智能体共享上下文或涉及大量智能体之间依赖的领域,目前多智能体系统并不适用,具体而言就是代码生成类任务,每一步都紧密关联、一环扣一环,分工反而容易乱套。而且现在的大模型,还不太擅长一边协调任务、一边并行完成,让多个智能体同时在线合作,难度依然很大。第三个缺点,是多智能体调试的难度。

在前文中我们不断提及Anthropic针对多智能体系统给出的解决方案,而一个系统,值得Anthropic花一整篇工程博客、给出如此多的、针对性的解决方案,本身就已经说明这个系统,目前还是过于复杂。

因此,至少此时此刻,多智能体系统还远远不是一个适用于多数场景的解决方案,而是一个高成本、高产出、适用于高价值任务的解决方案,如果说搭建单个智能体是“轻工业”,那么搭建多智能体系统毫无疑问属于门槛极高的“重工业”。

在当下,它可能更适合那些,能够同时满足那些价值量足够高、场景适合多智能体协同工作、并且团队具备复杂工程运维能力,三个条件的任务。

虽然适用范围较窄,但Anthropic对多智能体的探索并非没有意义,至少它给我们提供了另外一个视角:

过去我们在谈Agent时,更多关注的是「能力」。而多智能体的方向,让我们得以开始思考「组织」。当单个AI的能力逼近天花板,「组织」也成为一种提升AI能力的思路和方法。再往前走,也许就是多个AI之间的组织结构进化?

未来的AI组织,能不能像人类的公司一样运转?能不能像实现自调节?能不能自己组队、定目标?

如果接下来真能走通这条路,那或许就是通向AGI的关键路径之一。

这不一定是终点,也一定不是终点,但有可能指向下一个奇点