本地 LLM 推理

本地推理不是「把云端模型搬到本机」这么简单。它是一组相互纠缠的约束——内存、量化、KV cache、上下文长度、agent 兼容性——在同一个硬件边界内的博弈。

为什么需要本地推理

在云端 API 已经足够好用的今天，本地推理仍然有几个不可替代的场景：

隐私与数据主权。代码、文档、个人笔记不需要离开本机。
长上下文的成本。1M tokens 的云端调用是一笔可观的开销，本地运行则是一次性硬件投入。
离线可用性。飞机、火车、网络受限环境。
Agent 工作流的低延迟。本地模型没有网络往返，对于需要频繁调用的 agent 场景（如 ai-agent-harness 描述的 orchestrator-worker 模式），延迟差异会累积成体验差异。
可控性与可复现性。本地环境可以完全控制版本、配置和状态，不受提供商更新策略影响。

通用运行器 vs 专用引擎

本地推理生态目前有两条路线：

路线	代表	优势	代价
通用运行器	llama.cpp、Ollama、vLLM	支持多种模型、社区成熟、工具链丰富	为通用性牺牲极致优化、新模型支持有延迟
专用引擎	ds4.c	为单一模型做端到端优化、官方向量验证、可信的 agent 集成	只支持一个模型、生态锁定

ds4.c 的选择是后者。它的论点是：本地推理领域有太多优秀项目，但新模型一发布，注意力立刻被下一个实现吸走。与其做一个「能跑所有模型但都不完美」的通用框架，不如做一个「只跑一个模型但跑得可信」的专用引擎。

这个判断和 agentic-systems 里 Anthropic 的「复杂度阶梯」形成有趣的呼应：不是所有问题都需要通用解，有时候「足够窄、足够深」的专用方案反而更可靠。

量化的艺术

量化是把模型权重从高精度（FP16/FP32）压缩到低精度（INT8、INT4、甚至 INT2）的过程。但 ds4.c 展示的 2-bit 量化不是「把精度均匀砍掉」，而是一种非对称量化：

只量化 routed MoE experts：up/gate 到 IQ2_XXS，down 到 Q2_K
保持 shared experts、projections、routing 原精度

这种策略的前提是 MoE 架构天然把「高频核心计算」和「低频专家分支」分开了。均匀量化会同时伤害两者，而非对称量化只牺牲后者——而 routed experts 恰好占了参数量的绝大部分。

这让我想到数据库索引里的选择性压缩：不是对所有列做同样的编码，而是对高基数列用字典编码，对低基数列用 run-length 编码。量化也是类似的「按结构特征选择压缩策略」。

KV Cache 的重新定位

传统上，KV cache 被视为内存的附属品：上下文越长，KV cache 越大，GPU/CPU 内存压力越高。ds4.c 基于 DeepSeek V4 Flash 的极度压缩 KV cache 和现代 MacBook 的 fast SSD，提出了一个不同寻常的论点：

KV cache 应该被视为磁盘的一级公民。

这意味着：

长上下文推理不再受限于 RAM 容量，而是受限于磁盘 I/O 带宽
会话切换和服务器重启后，KV cache 可以恢复，不需要重新预填充
agent 工作流中，不同会话可以共享已经计算过的前缀

这个思路如果普及，会改变我们对「本地模型能处理多长上下文」的直觉。以前我们说「128GB RAM 能跑多少上下文」，以后可能要说「SSD 能存多少 checkpoints」。

Agent 后端的可信度

本地推理如果只是「能跑」，对普通用户已经够了；但如果要成为 agent 工作流的后端，就需要更高标准的可信度：

ds4.c 的验证策略是官方向量对比：用官方 DeepSeek API 在 greedy decoding、无 thinking、最大 top_logprobs 条件下获取 logits，然后在本地用相同条件生成，按 token bytes 比较。tokenizer、template 或 attention 的回归在变成长生成失败之前就会被捕获。

这和软件工程里的确定性测试类似：不是「看起来对」，而是「比特级一致」。对于 agent 场景——尤其是代码生成、工具调用等需要高可靠性的任务——这种验证标准可能是必要的。

硬件边界的现实

ds4.c 的目标硬件非常明确：

起步：MacBook with 128GB RAM（跑 2-bit 量化）
舒适区：Mac Studio with 256GB+ RAM（跑 4-bit 量化）
上下文：100k~300k tokens 是 128GB 机器的明智选择；1M tokens 需要更大内存

这意味着本地推理目前仍然是「高端个人机器」的游戏，不是普通笔记本能参与的。但随着量化技术、KV cache 压缩和专用引擎优化的进步，这个边界会持续下移。

实用判断

如果你正在考虑本地推理方案，我会建议按以下顺序评估：

你的硬件是什么？ 128GB RAM 是 ds4.c 的入门门槛，普通 16GB/32GB 笔记本目前只能跑更小的模型（7B~13B 级别）。
你的主要场景是什么？ 代码辅助、长文档分析、隐私敏感任务——不同场景对上下文长度、推理速度和模型质量的要求不同。
你需要通用性还是专精？ 如果你经常切换模型，通用运行器（llama.cpp/Ollama）更合适；如果你主要用一个模型且追求极致体验，专用引擎值得考虑。
Agent 集成是否必要？ 如果需要接入 Claude Code、OpenCode 等 agent 工作流，OpenAI/Anthropic 兼容 API 是硬需求。

来源：ds4-readme

kaikai's wiki

探索