多智能体系统

多智能体最容易被误解成“多堆几份模型调用”，但真正稀缺的从来不是 agent 数量，而是你能不能把问题拆成值得并行的几条独立思路线。

什么时候值得用

根据 how-we-built-our-multi-agent-research-system，多智能体最适合以下任务。我现在基本把这几条当成是否值得上多智能体的前置门槛，而不是优化建议。

开放式问题：步骤无法预先写死，要边查边改策略；
可并行探索：存在多条相对独立的搜索路径；
信息量过大：超出单个上下文窗口的有效处理范围；
任务价值高：足以覆盖显著上升的 token 成本。

因此，多智能体不是默认升级选项，而是对“单 agent 的上下文与串行瓶颈”做结构性扩展。它解决的是结构问题，不是情绪问题。

为什么会更强

它的收益主要来自三点，而且每一点都对应着单 agent 很难自然补齐的短板：

并行探索：多个 subagent 同时追不同线索；
上下文隔离：每个 agent 有自己的工作集，降低路径依赖；
结果压缩：subagent 先过滤信息，再把高价值结论返回给 lead agent。

从这个角度看，多智能体本质上是在扩展“可用推理容量”，而不只是复制同一个 agent。

常见结构

目前最常见、也最实用的结构是 orchestrator-worker：

lead / orchestrator 负责拆解问题、分配预算、综合结果；
worker / subagent 负责在各自边界内执行探索；
必要时再加入专门的 citation、review 或 evaluator 环节。

这种结构比完全平权的多智能体更容易调试，因为责任分工更清楚。我也更偏好这种设计，因为很多“多智能体协作”一旦没有明确层级，就会很快退化成昂贵的混乱。

另一种分工：按时间尺度拆分

interaction-models 提出了一种不太一样的双模型结构：interaction model 负责实时响应，background model 负责深度推理。两者的分工不是按任务并行度，而是按时间尺度——一个处理 200ms 的 micro-turns，另一个处理需要数秒甚至数分钟的复杂推理。

这与 orchestrator-worker 模式有本质区别：

Orchestrator-worker：按任务类型或搜索方向并行拆分，每个 worker 处理不同的子问题
Interaction-background：按延迟需求拆分，两个模型处理的是同一个对话的不同时间分辨率

这种结构的优势在于，用户始终感觉到一个持续在场的协作者，而不会被”模型正在思考，请稍候”打断。Interaction model 决定何时说话、如何保持对话节奏，background model 决定说什么最有深度。两者通过流式结果回注协作，而不是通过最终答案交付协作。

我觉得这个模式对多智能体设计的启示是：分工的维度不只可以是任务空间，还可以是时间空间。在某些场景下，让不同智能体负责不同时间尺度的响应，可能比让它们负责不同子任务更有效。

成功关键不只是模型

多智能体系统的上限通常由下面几件事共同决定：

分工提示是否明确；
任务预算是否按复杂度缩放；
工具选择与工具描述是否清晰；
是否有足够好的可观测性、评估与恢复机制。

也就是说，multi-agent 的难点往往不在“再加一个 agent”，而在“如何避免它们重复劳动、互相拖慢、共同失控”。这是我觉得这类系统最值得被正视的真实工程问题。

主要代价

token 成本高：并行性几乎总是用成本换性能；
协调复杂度高：分工、同步、去重、回收都更难；
可靠性要求更高：任何单点失败都可能影响整条研究链路；
并非所有领域都适合：如果任务强依赖共享上下文或高度串行，多智能体收益会下降。

一个生产级实例：oh-my-openagent

oh-my-openagent 提供了一个非常具体的 orchestrator-worker 实现。Sisyphus 作为总调度，不直接选择模型，而是选择 category（如 visual-engineering、ultrabrain、quick），再由 harness 解析为具体模型和 fallback chain。

omo 的后台任务系统把并行执行做成了基础设施：

每个 subagent 运行在独立的 OpenCode 子会话中，有自己的模型和上下文。
并发限制 5 个/模型，FIFO 队列，避免挤占。
完成后通过 <system-reminder> 注入结果，不污染主会话上下文。
内置熔断器，检测子 agent 陷入工具循环时自动取消。

这个实现让我意识到：多智能体系统的”并行”不只是同时发几个 API 请求，而是会话隔离 + 生命周期管理 + 结果回注的一整套机制。缺少其中任何一环，并行都会退化成”同时跑几个不知道彼此进度的黑盒”。

omo 还做了一件事值得记录：它把模型选择从”用户手动操作”变成了”category 语义驱动”。用户说”帮我画个前端”，系统自动路由到 visual-engineering → gemini-3.1-pro；用户说”帮我分析架构”，自动路由到 ultrabrain → gpt-5.5 xhigh。这种抽象让多智能体的使用门槛降低了一个数量级。

一个实用判断句

如果问题不能被自然拆成几条彼此相对独立的工作流，那么它通常还不够适合多智能体。

来源：how-we-built-our-multi-agent-research-system · scaling-managed-agents-decoupling-the-brain-from-the-hands · oh-my-openagent · interaction-models

kaikai's wiki

探索