很多所谓“模型不够聪明”的问题,我现在第一反应已经不是怪模型,而是先怀疑工具接口是不是把它带进了一个本不该存在的坑里。

什么是 ACI

ACI(agent-computer interface)可以理解为:agent 如何理解、调用并组合外部工具的接口层。它对应人机交互中的 HCI,但服务对象从人变成了模型。这个类比非常有用,因为它提醒我,接口设计不是底层实现细节,而是能力边界本身。

building-effective-ai-agents 的重要提醒是:很多 agent 的上限,不由模型参数量决定,而由工具接口是否清晰、自然、抗误用决定。我觉得这句话对今天很多 agent 工程都像一记纠偏。

好的 ACI 长什么样

  • 描述清晰:工具用途、参数、边界、异常情况都写明。
  • 格式自然:尽量使用模型熟悉的文本 / 代码格式,避免额外转义和计数负担。
  • 边界明确:相似工具之间的职责不要重叠模糊。
  • 容错内建:通过参数设计减少误操作空间,也就是 poka-yoke。

为什么工具格式很重要

从软件工程视角看,“返回 diff”与“返回完整文件”也许只是不同表示法;但对模型来说,难度可能完全不同。凡是要求模型做额外精确 bookkeeping 的格式,例如:

  • 预先写对 diff 行数;
  • 在 JSON 中转义大量代码;
  • 同时维护多个隐含约束;

都会显著增加出错概率。

因此,一个常见原则是:让输出格式尽量贴近互联网中自然出现的文本形态。 我会把这理解成“顺着模型已经会的分布设计接口”,而不是逼它去适应一套对人类工程师更顺手、但对模型更别扭的表示法。

how-we-built-our-multi-agent-research-system 进一步补充了另一层:除了格式本身,tool selection 也必须被显式教会。如果 agent 不先审视当前可用工具,不理解每个工具的适用边界,就算模型再强,也可能在一开始就走错搜索空间。

设计方法

可以把工具说明当作写给团队里初级工程师的 docstring。这个比喻我很喜欢,因为它天然要求我们把“使用边界”讲清楚,而不是只把 happy path 写一遍。

  • 它是做什么的;
  • 什么时候该用,什么时候不该用;
  • 参数分别代表什么;
  • 常见误用是什么;
  • 有没有示例输入输出。

如果人类读完都需要停下来想一会儿,模型大概率也会困惑。

测试方法

ACI 不是写完就算,它需要像产品接口一样被迭代:

  • 用多组真实样例测试工具调用;
  • 观察模型最常犯的错误;
  • 调整参数命名、描述和输出格式;
  • 再次测试,直到误用显著下降。

Anthropic 在 SWE-bench coding agent 上的经验甚至是:优化工具花的时间比优化总 prompt 更多。 这基本已经把 ACI 的地位说透了。

而在 how-we-built-our-multi-agent-research-system 中,他们甚至让 agent 反复试用 MCP 工具并改写工具描述,最终降低后续 agent 的任务完成时间。这说明 ACI 不只是手工文档工作,也可以进入 agent 驱动的迭代闭环。

一个典型案例

文章提到,相对路径工具在 agent 离开根目录后容易出错;改成始终要求绝对路径后,工具使用稳定性明显提升。这个例子说明:很多所谓“模型能力问题”,其实是接口设计问题。

scaling-managed-agents-decoupling-the-brain-from-the-hands 则把 ACI 再向下推进一层:当 sandbox、MCP 服务、手机或其他执行环境都统一抽象成 execute(name, input) → string 时,agent 面对的是一个更稳定的“手的接口”。这类抽象并不降低复杂度本身,但能降低系统边界的脆弱性。

从工具接口到协作接口

interaction-models 让我意识到 ACI 还有一个更深层、之前被忽略的维度:agent 如何与人类在同一个时间流中共处。现有的 ACI 讨论几乎完全集中在”模型怎么调用外部工具”,但完全没有触及”模型怎么和人类实时协作”。

Interaction model 把这个问题推进到了极致:当模型以 200ms micro-turns 持续运行,同时处理音频、视频和文本输入,同时生成输出,“接口”就不再是一套函数签名,而是一种共在状态。模型可以在你听它说话时浏览网页、生成界面、观察你的屏幕并适时插话——这要求一套全新的注意力管理、边界保持和安全对齐机制。

这个视角的延伸意义在于:未来的 ACI 设计可能需要同时回答两个问题——模型如何调用工具,以及模型如何与人类共享时间和注意力。两者都是 agent 能力的边界条件,缺一不可。


来源:building-effective-ai-agents · how-we-built-our-multi-agent-research-system · scaling-managed-agents-decoupling-the-brain-from-the-hands · interaction-models

相关页面:agentic-systems · multi-agent-systems · long-horizon-agents · interaction-models · managed-agents · anthropic · thinking-machines-lab