这篇文章让我重新理解了一个问题:我们之前说的 “ACI” 其实还停留在一个很浅的层面——它讨论的是 agent 怎么调用工具,但完全没有触及 agent 怎么和人类共处同一个时间流。

为什么 turn-based 是瓶颈

现有 AI 系统的人类被排除在循环之外,不是因为工作不需要他们,而是因为接口没有为人类留出空间。模型在用户完成输入前完全等待,生成过程中又冻结感知。这就像试图通过电子邮件解决一场关键分歧——信息可以传递,但协作带宽被严重压缩。

更深层的问题在于,现有的 “实时” 系统本质上是在 turn-based 模型外面套一层 harness:VAD 检测语音边界、对话管理组件预测 turn 切换、独立编码器处理音频视频。这些组件的智能水平显著低于模型本身,因此无法支持真正的主动性交互——比如 “在我犯错时打断我” 或 “在我写出 bug 时告诉我”。

Interaction model 的核心范式

Thinking Machines Lab 提出的 interaction model 把交互能力从外部 harness 下沉到模型的一级能力。关键不是让模型 “更快地完成 turn”,而是彻底取消 turn 的概念

模型以 200ms 的 micro-turns 持续运行:每 200ms 接收一批多模态输入,同时生成一批输出。输入和输出流被交错成单一 token 序列,人类感知中的并发音频、视频流在模型内部被统一处理。这带来几个本质变化:

  • 打断和重叠成为原生行为,而非需要特殊 harness 支持的异常模式
  • 时间感知内建到模型,可以回答 “我跑一英里用了多久” 这类需要主动计时的问题
  • 视觉主动性:模型可以根据视觉变化主动选择说话,而非等待音频 trigger
  • 并发能力:在说话的同时搜索、调用工具或生成 UI

双模型架构

Interaction model 不是孤军奋战。当任务需要超出瞬时响应的深度推理时,它会将完整对话上下文(而非独立查询)委托给一个 background model。这个模型异步运行,结果流式返回,由 interaction model 在合适的时刻自然融入对话。

这个分工非常精确:interaction model 负责presence——让用户感觉到一个持续在场的协作者;background model 负责depth——处理需要规划的复杂任务。两者都是智能的,但各自优化了不同的延迟-智能权衡。

我觉得这个架构对 agentic systems 的启示在于:它把 “实时交互” 和 “深度推理” 从同一个模型的矛盾需求中解放出来,变成了两个可以独立优化、再协同工作的组件。这与 multi-agent-systems 中的 orchestrator-worker 模式有相似之处,但分工维度不同——不是按任务并行度拆分,而是按时间尺度拆分。

对 ACI 的重新定义

agent-computer-interface 之前讨论的是 agent 如何调用工具,而 interaction model 把这个概念推进了一层:ACI 也应该包括 agent 如何与人类在同一个时间流中协作

当模型可以在你听它说话时同时浏览网页、生成代码界面、观察你的屏幕并适时插话,“接口”就不再是一套函数签名,而是一种共在状态。这对未来 agent 系统的设计提出了全新的问题:如何管理并发注意力?如何在多模态流中保持一致的个性与边界?如何在实时交互中保持安全对齐?

技术实现的取舍

Encoder-free early fusion :放弃独立的 Whisper 式音频编码器和 TTS 式解码器,改用 dMel 直接输入、flow head 直接输出。这个选择的代价是失去现成编码器的成熟度,但收益是整个系统可以端到端训练,交互行为随模型规模同步提升——符合 “the bitter lesson” 的精神。

Streaming sessions :200ms chunks 的频繁小 prefill 对现有推理系统是巨大的挑战。通过在 GPU 内存中持久化拼接序列,他们把 per-turn 开销降到可接受范围。这个优化已经 upstream 到 SGLang,说明它不只是某个实验室的内部 trick。

Trainer-sampler alignment :在多并行策略训练中保持比特级一致,这对调试和稳定性很重要,但对于大多数工程团队来说,这属于 “如果不到那个规模就不需要担心” 的范畴。

评估的挑战

现有的交互基准(如 FD-bench)只能测量 turn-taking latency 和基本响应质量,无法捕捉 interaction model 带来的定性跃迁。Thinking Machines 为此开发了内部基准:

  • TimeSpeak:测量时间感知和主动发起语音的能力
  • CueSpeak:测量在正确时刻给出正确语义回应的能力
  • RepCount-A / ProactiveVideoQA / Charades:测量视觉主动性

这些基准的共同点是:它们惩罚 “说得对但时机错” 和 “时机对但说得错” 同样严厉。这反映出交互质量不是单一维度的得分,而是语义正确性与时间正确性的联合优化。

一个判断句

如果一个 AI 系统需要人类去适应它的 turn 节奏、等待它完成生成才能提供新信息、或者通过特殊的打断按钮来 “申请发言”,那么它还没有真正进入实时协作的范式——它只是在模拟协作。


来源:interaction-models

相关页面:agent-computer-interface · agentic-systems · multi-agent-systems · thinking-machines-lab · ai-agent-harness · long-horizon-agents