Scaling Managed Agents: Decoupling the brain from the hands

核心论点

这篇文章关注的不是 prompt，而是长程 agent 的底层运行时应该如何设计，才能在模型持续变强时仍保持稳定、可恢复、可扩展与安全。Anthropic 的答案是：把 agent 系统虚拟化成少数稳定接口，把“脑”“手”“会话”彻底解耦。

Managed Agents 将 agent 运行时抽象为三部分：

文章借操作系统做类比：就像 process 与 file 这些抽象比底层硬件活得更久，agent 基础设施也需要一组不随当前实现细节而失效的稳定接口。

早期把 harness、session、sandbox 都放进同一个容器，看起来简单，却会形成“pet server”问题：

解耦之后，harness 不再住在容器里，而是把容器 / 沙箱当作普通工具调用。这样单个 sandbox 失败时，系统可以把它视作可重建、可替换的 cattle，而不是必须手工抢救的 pet。

文章最重要的一点是：session 不是 Claude 的 context window。

对于长程任务，context window 只是当前可见工作集；真正可恢复、可回放、可重读的历史，应该存在 session log 中。于是：

这个设计很适合长时程任务，因为它降低了“压缩错了就永久丢信息”的风险。

文章对 prompt injection 风险的处理很有代表性：不要默认靠更严格 prompt 或更窄权限来兜底，而应从架构上让凭证根本不可达。

Anthropic 采用两种方式：

因此，哪怕 Claude 生成的代码在 sandbox 中运行，也无法直接读取核心凭证。这是一种比“希望模型别犯错”更稳的结构性防护。

解耦之后，系统既能扩展到 many brains，也能扩展到 many hands：

这意味着未来不管“手”是容器、手机、MCP 服务还是别的执行环境，系统都不必整体重构。

这篇文章延续了 Anthropic 一贯的观点：harness 编码了“模型做不到什么”的假设，而这些假设会随着模型进步迅速过时。

因此，好的 harness / meta-harness 不是把当下经验写死，而是：

这篇文章最有价值的洞见是：做长程 agent 时，不能把“模型当前的上下文窗口”误当成“系统真正的记忆与状态层”。 只有把状态、执行与协调拆开，agent 才能在失败、扩展与模型迭代中保持韧性。