Agent的新思路: 构建多agent系统

2025-07-29 01:22:43
343

一个Agent不能解决所有问题？这篇文章深入剖析多agent系统的新思路，从协作机制到结构设计，为你揭示如何打破“单体智能”的瓶颈，实现更高效、更灵活的系统能力构建。

Anthropic团队上个月发了一篇工程博客，讲述了他们如何构建Claude的多智能体研究系统。乍一看，这篇文章似乎是一个复杂的技术话题，但仔细读下来，你会发现它其实探讨的是一个更深层次的商业和技术问题：

当单个AI的能力达到了极限，接下来我们该如何前进？

对于这个问题，Anthropic给出了一个可供参考答案：构建多智能体系统

本篇结合Anthropic的工程博客，以及个人对智能体的认知，对构建多智能体系统的原理和方法论进行探讨。

废话不多说，先从这篇工程博客的核心要点说起：

1.让多个智能体协同工作

“让多个智能体学会协作。”——这是这篇博客的核心观点。

我们可以把这种方法想象成团队合作：假设你是一个宠物公司的CEO，想了解2025年中国宠物市场的机会，以及哪些细分品类值得布局。如果只有你一个人来做这件事，即便你再聪明，工作也得一步一步来：先查宏观经济数据，再看行业报告，再到竞争对手分析，最后分析消费者的购买行为。这一套流程下来，对个人而言工作量不小，而且可能要花上几周时间。

但如果你有一个团队，事情就不一样了：

市场分析师：专注宏观趋势

行业专家：深入研究某些细分市场

数据分析师：专门解读消费者的行为模式

每个人各司其职，大家并行作业，最后汇总给你。这样做的好处是，时间缩短了，效率大大提高，做决策也能更快。通过这种方式，团队的效率就像是多智能体系统的协作：每个智能体负责一个环节，最终汇总出的结果不仅更快，还更加精确和深刻。

这种多智能体协作的方式，在复杂的研究任务中，显得尤为重要。

正如原文所说：搜索的本质是“压缩”，即从海量信息中筛选、压缩出最有用的那一撮。

而多智能体协作时，每个子智能体像是执行专员，各自从不同角度去查资料、找关键点，然后再把他们认为最重要的内容提炼出来，交给主智能体统一汇总——这恰好就是搜索的本质。

而这种协作方式，也打破了单一智能体的局限，能够通过并行处理加速任务执行，极大地提升了处理信息的深度和广度。

问题来了：这个多智能体系统，具体是如何运作的？

2.多智能体如何并行？与RAG有何不同？

AIAgent和workflow，在过去总会被人混为一谈，原因在于两者在执行任务时都表现出一定的线性流程结构，目的是协助人类按部就班地进行任务，比如搜索这个场景，可以这样拆分工作流：

接到目标→搜索信息→分析结果→给出答案

每一步都依赖上一步的完成，好处是清晰且符合人类的做事逻辑，当坏处是效率受限。

而Anthropic发现，真实的任务往往是并行的。例如问一个问题：“哪些生意在2025年最值得投资？”这不仅仅是一个简单的查询，它需要涵盖多个维度：技术趋势、商业模式、财务状况、竞争格局等，让一个智能体按部就班地深度研究，可能需要花费几十分钟。

而如果采用并行架构，这个任务的执行就可以变得更加高效：

如上图，主智能体首先分析问题，识别出几个关键的研究方向，然后创建多个子智能体，分别负责不同领域的研究。每个子智能体独立工作，可以同时调用多个搜索工具，最终主智能体汇总所有的发现，形成完整的答案。

在Anthropic的内部评估中，多智能体系统的搜索效果相比于单智能体提升了90.2%；

同时也将复杂查询的研究时间缩短了90%。

同样是信息检索，这种多智能体并行搜索的原理，跟RAG也存在明显的区别。

RAG主要有两个功能：检索信息、并引用信息生成回复。走RAG链路会让模型从大量资料中找到相关的信息，然后再用这些信息生成一个完整的回复，侧重单一智能体的信息获取能力与生成能力，这种方法会受限于单一智能体的能力，这也导致了单一智能体在Anthropic的内部评估中的落败；

而多智能体系统则像一个庞大的团队，各个智能体分别承担不同的任务，进行信息的深入探索、分析和组织，如：Researcher负责深度挖掘和收集资料；Organizer负责把收集来的信息进行整理和组织；Judge负责评估结果的准确性和质量。分工明确、各有所长，最终合作完成任务。

如果说RAG是对于相关信息的获取、梳理、生成，那多智能体还做到了对相关信息的主动探索、分析、再组织，提升的不止是检索能力，还有对信息的“认知深度”。

因此从RAG到多智能体，变化的不只是执行方式，而是AI处理信息的广度与深度。

而当AI开始协作、判断、复盘，PE的角色也需要随之升级。

3.多智能体的PE有何不同？

过去我们构建PE的核心目的，在于让模型按照指令完成某个具体的任务，因此需要手把手教学，我们的角色是“老师”；但到了多智能体系统里的PE，我们的角色不仅仅是“老师”，还是一个“项目经理”。

因为这时候不再是单个AI在干活，而是若干个智能体在协同工作，因此PE不能仅仅给一个明确的指令，而是像一个项目经理一样，去搭建一套指挥“谁应该具体做什么任务”的调度系统，由主智能体负责安排调度子智能体，且发送给子智能体的指令必须足够清晰，否则就容易出岔子。

例如Anthropic发现：主智能体如果只是给出一句模糊的指令，比如“研究半导体短缺问题”，听起来挺明确，但底下几个子智能体执行出来的内容全是各说各话、不成体系，一个跑去复盘2021年的车规芯片危机，两个重复研究了2025年的半导体供应链，大家都很努力，但努力的方向完全没对齐。

如果是个真实项目，大概率会造成生产事故。

因此在多智能体系统中，我们构建PE，就是要确保我们构建的PE，能够让主智能体搞懂用户的目标，还得搞清楚，这个目标能不能拆、该怎么拆、谁负责做什么任务、谁和谁之间不能重复，每个子智能体的专长分别是什么？具体负责什么？任务边界在哪里？

每一个细节，都会影响整个系统的效率和准确率。——这听上去是不是就像项目经理？

一个有效的多智能体PE，就是需要让整个系统协作顺畅、稳定产出。

那如何构建这样的PE？我们可以看看Anthropic的实践总结：

1.学会站在智能体的角度思考

这是Anthropic老生常谈的方法论了，我们需要观察每一步的决策路径，发现失败模式，为提示优化提供直观依据

2.教会主智能体清晰地分派任务

主智能体需要清晰地描述任务目标、输出格式、使用工具、信息来源以及任务边，否则子智能体容易重复、遗漏或跑偏

3.根据任务复杂度调整调用规模

不同任务需要匹配不同数量和类型的子智能体，例如简单事实查找只需一个智能体+3-10次工具调用，而复杂研究可能要10+子智能体，进行分工协作

4.慎重选择调用工具

要指导智能体调用合适的工具，且优先选择专业工具

5.智能体自我复盘优化机制

可以用智能体来复盘智能体，出错了让另一个智能体来复盘分析、优化，通过失败案例分析、提示改写、工具描述优化，让系统实现持续改进

6.由广度到深度的搜索策略

先进行广泛探索，再聚焦深入，是更高效的研究路径，提示中应引导智能体避免一开始就钻牛角尖

7.思考过程显性表达

通过让智能体输出“思考过程”，主智能体能更好地规划、评估任务路径与资源分配

8.任务并行，提速增效

包括主智能体并行启动多个子智能体，子智能体同时调用多个工具，有效压缩任务执行时间

在上述的8条经验总结中，有一个词频繁出现：“工具”。

Anthropic在实验中发现，很多任务失败并不是因为智能体不够聪明，而是没调用正确的工具。因此多智能体系统需要检查所有可用工具，把工具用法和用户意图对上，必要时上网广泛搜索，优先选专用工具而非通用工具，且每个工具都得有明确用途和清晰说明，方便智能体作出判断，避免因为对工具的描述不清，导致智能体跑偏。

一个好用的多智能体系统，离不开PE的构建，离不开准确的工具调用。但问题又来了：

多智能体系统的构建如此复杂且如此强调“协同”，这也就意味着单个智能体如果出现判断失误，就有可能引发连锁反应，导致整个任务翻车。

针对这个问题，Anthropic又给出了怎样的解决的思路？

4.稳定运行的4个关键：复盘、兜底、迭代、渐进上线

为了让多智能体系统在实际运行中更稳、更可控，Anthropic在工程层面做了四项关键设计：

1.复盘：智能体自我优化机制（LetAgentsImproveThemselves）

按照以往的经验，一旦AI出错，就得我们来进行优化，而Anthropic并不满足于让AI只是被动执行，而是尝试让AI具备一种“自我反馈、持续改进”的能力。

从结果看，这种自我优化机制显著提升了系统的表现，任务完成时间缩短了约40%。

具体流程上图亦有提及：当一个子智能体在执行中失败，这个系统会自动调用另一个“诊断型智能体”，分析失败的原因，比如是不是搜索方向错了、工具调用混乱等等，诊断的同时也给出优化建议。

复盘当然不能只找出问题，因此Anthropic还将这些失败案例和改进方案，都投喂回系统中积累成经验，供未来的任务参考。

这又有点像我们人类的做法：我们不可能从不犯错，但是出了问题能快速复盘、调整策略、避免再犯，Anthropic做的，就是把这种复盘机制移植到AI系统内部，让AI团队自己总结、自己成长。

如果说以前AI需要人类来发现错误并提供优化，那这套自我优化机制的意义在于：AI错了也能自己发现、自己改进、积累成经验，避免下次别再错。

2.兜底：检查点机制（Regularcheckpoints）

由于在多智能体系统中，任务往往不是一步到位的，而是需要多个智能体接力完成，因此网易中间哪一环出了问题，很可能整个任务链路就卡住了。如果任务执行一半出错，系统全部重启、从头再跑一遍，这显然不现实，尤其是在任务路径很长、成本很高的多智能体系统中（后面我们会谈及多智能体系统的成本问题）。

出错一次，就重跑一次，效率低不说，还容易引发级联故障。

Anthropic对此给出的思路是，引入类似“存档”的机制，也就是检查点机制。在任务的关键节点，主智能体会自动保存一次“系统状态”，如果后续子任务失败，系统就能从上一次成功的检查点恢复，而不是“推倒重来”。

它的意义在于：大大提升了系统的容错能力，让多智能体系统在面对复杂、不确定任务时，也具备了抗风险能力。未来这种机制可能还会进一步演进，例如智能体能自主决定什么时候该“存档”？哪个节点是“风险节点”要重点注意？这也是多智能体系统能够稳定运行的重要前提。

3.迭代：全链路Tracing日志（FullProductionTracing）

正常情况下，我们发现模型出现问题，只能知道response错了，或者知道存在这一类badcase，无法深究，只有查看这些数据对应的链路，才能搞清楚到底是哪一步出了问题？

而在多智能体系统中，任务执行链条更长、参与角色更多，一方面如果不记录链路的全过程，后续复盘无从下手；另一方面由于智能体数量较多，如果发现了问题再找对应的链路查证，效率也较低。

因此Anthropic在系统中引入了一套全链路Tracing日志，用来记录整个任务执行过程。包括每个智能体接到的任务指令、调用了什么工具、工具的响应情况、智能体中间的判断逻辑、输出的内容、收到的反馈等等，全都记录在案。

这相当于给每个智能体配了一台工作记录仪，把它做了什么、为什么这么做，都拍了下来。一旦出问题，主智能体或者运维人员就能回看工作录像，迅速定位是哪一步决策偏了、哪个工具响应错了、信息源是不是有误，从而精准调优。

而且这套日志系统不仅可以用于排查问题，也可以作为日常优化的重要数据源。比如长期观察某些工具的调用失败率高，就说明它的描述或接口可能需要优化。

因此全链路trace是支撑多智能体系统“可解释、可优化、可维护”的基础设施。没有它，系统复杂性一旦上升，就只能靠拍脑袋调试，效率低下还不稳定。

4.渐进上线：渐进式部署策略（RainbowDeployment）

由于多智能体系统本身的构建就较为复杂，因此单个智能体一次很小的更新，在多智能体系统里可能引发“连环反应”。比如改了一个子智能体的PE结构，结果导致依赖它输出的另一个智能体出现问题，整个链路报错；或者你替换了一个工具接口，旧版本的调用逻辑不兼容。

Anthropic为了解决这个问题，引入了类似互联网产品常用的渐进式部署策略（又译作“彩虹部署”）：新旧版本并行跑，先在小范围测试新版的稳定性，再逐步扩大范围，直到全面切换，确保新版本的更新平稳落地，不影响用户体验。

渐进式部署不仅让更新更安全，也可以给我们更多试错空间，我们可以放心地试验新prompt、新链路的输出效果，引入新开发的工具插件，也不必太担心翻车造成太大的影响。

毕竟多智能体系统，已经不是单个的大模型，而更像一个具体的产品，所以更新策略要像产品一样稳扎稳打，避免翻车。

5.现阶段多智能体系统的缺陷

上面梳理了一些多智能体系统的原理、方法论和优势，难道多智能体就是AIAgent的版本答案？

并非如此，至少目前，这不算一个通用的、适用于绝大多数场景的解决方案。

原因主要有三个，首先就是：贵，真的太贵了。

Anthropic的统计数据显示，多智能体系统的token消耗量，是普通chat的15倍。也就是原来一个任务花1块钱，用多智能体系统要花15块，而且这还只是算token的账。如果再加上工具调用、子智能体并发调度这些操作层的资源开销，整体成本会更高。

其次，多智能体系统并非在所有场景下，都能稳稳胜过单个智能体。

一些需要所有智能体共享上下文或涉及大量智能体之间依赖的领域，目前多智能体系统并不适用，具体而言就是代码生成类任务，每一步都紧密关联、一环扣一环，分工反而容易乱套。而且现在的大模型，还不太擅长一边协调任务、一边并行完成，让多个智能体同时在线合作，难度依然很大。第三个缺点，是多智能体调试的难度。

在前文中我们不断提及Anthropic针对多智能体系统给出的解决方案，而一个系统，值得Anthropic花一整篇工程博客、给出如此多的、针对性的解决方案，本身就已经说明这个系统，目前还是过于复杂。

因此，至少此时此刻，多智能体系统还远远不是一个适用于多数场景的解决方案，而是一个高成本、高产出、适用于高价值任务的解决方案，如果说搭建单个智能体是“轻工业”，那么搭建多智能体系统毫无疑问属于门槛极高的“重工业”。

在当下，它可能更适合那些，能够同时满足那些价值量足够高、场景适合多智能体协同工作、并且团队具备复杂工程运维能力，三个条件的任务。

虽然适用范围较窄，但Anthropic对多智能体的探索并非没有意义，至少它给我们提供了另外一个视角：

过去我们在谈Agent时，更多关注的是「能力」。而多智能体的方向，让我们得以开始思考「组织」。当单个AI的能力逼近天花板，「组织」也成为一种提升AI能力的思路和方法。再往前走，也许就是多个AI之间的组织结构进化？

未来的AI组织，能不能像人类的公司一样运转？能不能像实现自调节？能不能自己组队、定目标？

如果接下来真能走通这条路，那或许就是通向AGI的关键路径之一。

这不一定是终点，也一定不是终点，但有可能指向下一个奇点

相遇时光酒店电话发布网,提供相遇时光酒店电话发布信息,第一时间发布列表及资讯,相遇饭店电话是相遇饭店电话首选资讯平台。