多智能体最容易被误解成“多堆几份模型调用”,但真正稀缺的从来不是 agent 数量,而是你能不能把问题拆成值得并行的几条独立思路线。
什么时候值得用
根据 how-we-built-our-multi-agent-research-system,多智能体最适合以下任务。我现在基本把这几条当成是否值得上多智能体的前置门槛,而不是优化建议。
- 开放式问题:步骤无法预先写死,要边查边改策略;
- 可并行探索:存在多条相对独立的搜索路径;
- 信息量过大:超出单个上下文窗口的有效处理范围;
- 任务价值高:足以覆盖显著上升的 token 成本。
因此,多智能体不是默认升级选项,而是对“单 agent 的上下文与串行瓶颈”做结构性扩展。它解决的是结构问题,不是情绪问题。
为什么会更强
它的收益主要来自三点,而且每一点都对应着单 agent 很难自然补齐的短板:
- 并行探索:多个 subagent 同时追不同线索;
- 上下文隔离:每个 agent 有自己的工作集,降低路径依赖;
- 结果压缩:subagent 先过滤信息,再把高价值结论返回给 lead agent。
从这个角度看,多智能体本质上是在扩展“可用推理容量”,而不只是复制同一个 agent。
常见结构
目前最常见、也最实用的结构是 orchestrator-worker:
- lead / orchestrator 负责拆解问题、分配预算、综合结果;
- worker / subagent 负责在各自边界内执行探索;
- 必要时再加入专门的 citation、review 或 evaluator 环节。
这种结构比完全平权的多智能体更容易调试,因为责任分工更清楚。我也更偏好这种设计,因为很多“多智能体协作”一旦没有明确层级,就会很快退化成昂贵的混乱。
另一种分工:按时间尺度拆分
interaction-models 提出了一种不太一样的双模型结构:interaction model 负责实时响应,background model 负责深度推理。两者的分工不是按任务并行度,而是按时间尺度——一个处理 200ms 的 micro-turns,另一个处理需要数秒甚至数分钟的复杂推理。
这与 orchestrator-worker 模式有本质区别:
- Orchestrator-worker:按任务类型或搜索方向并行拆分,每个 worker 处理不同的子问题
- Interaction-background:按延迟需求拆分,两个模型处理的是同一个对话的不同时间分辨率
这种结构的优势在于,用户始终感觉到一个持续在场的协作者,而不会被”模型正在思考,请稍候”打断。Interaction model 决定何时说话、如何保持对话节奏,background model 决定说什么最有深度。两者通过流式结果回注协作,而不是通过最终答案交付协作。
我觉得这个模式对多智能体设计的启示是:分工的维度不只可以是任务空间,还可以是时间空间。在某些场景下,让不同智能体负责不同时间尺度的响应,可能比让它们负责不同子任务更有效。
成功关键不只是模型
多智能体系统的上限通常由下面几件事共同决定:
- 分工提示是否明确;
- 任务预算是否按复杂度缩放;
- 工具选择与工具描述是否清晰;
- 是否有足够好的可观测性、评估与恢复机制。
也就是说,multi-agent 的难点往往不在“再加一个 agent”,而在“如何避免它们重复劳动、互相拖慢、共同失控”。这是我觉得这类系统最值得被正视的真实工程问题。
主要代价
- token 成本高:并行性几乎总是用成本换性能;
- 协调复杂度高:分工、同步、去重、回收都更难;
- 可靠性要求更高:任何单点失败都可能影响整条研究链路;
- 并非所有领域都适合:如果任务强依赖共享上下文或高度串行,多智能体收益会下降。
一个生产级实例:oh-my-openagent
oh-my-openagent 提供了一个非常具体的 orchestrator-worker 实现。Sisyphus 作为总调度,不直接选择模型,而是选择 category(如 visual-engineering、ultrabrain、quick),再由 harness 解析为具体模型和 fallback chain。
omo 的后台任务系统把并行执行做成了基础设施:
- 每个 subagent 运行在独立的 OpenCode 子会话中,有自己的模型和上下文。
- 并发限制 5 个/模型,FIFO 队列,避免挤占。
- 完成后通过
<system-reminder>注入结果,不污染主会话上下文。 - 内置熔断器,检测子 agent 陷入工具循环时自动取消。
这个实现让我意识到:多智能体系统的”并行”不只是同时发几个 API 请求,而是会话隔离 + 生命周期管理 + 结果回注的一整套机制。缺少其中任何一环,并行都会退化成”同时跑几个不知道彼此进度的黑盒”。
omo 还做了一件事值得记录:它把模型选择从”用户手动操作”变成了”category 语义驱动”。用户说”帮我画个前端”,系统自动路由到 visual-engineering → gemini-3.1-pro;用户说”帮我分析架构”,自动路由到 ultrabrain → gpt-5.5 xhigh。这种抽象让多智能体的使用门槛降低了一个数量级。
一个实用判断句
如果问题不能被自然拆成几条彼此相对独立的工作流,那么它通常还不够适合多智能体。
来源:how-we-built-our-multi-agent-research-system · scaling-managed-agents-decoupling-the-brain-from-the-hands · oh-my-openagent · interaction-models
相关页面:agentic-systems · ai-agent-harness · long-horizon-agents · agent-computer-interface · interaction-models · managed-agents · anthropic · oh-my-openagent · thinking-machines-lab