ClickHouse SharedMergeTree

来源：SharedMergeTree | ClickHouse Docs

SharedMergeTree 是 ClickHouse Cloud 的默认表引擎，是 ReplicatedMergeTree 家族在云原生共享存储环境下的重新实现。它把”副本间复制”换成了”共享存储 + Keeper 协调”，从根本上改变了存算分离的边界。

与 ReplicatedMergeTree 的核心区别

维度	ReplicatedMergeTree	SharedMergeTree
数据存储	每个 replica 持有完整数据副本	数据在共享对象存储，所有 replica 共享
元数据存储	每个 replica 本地持有元数据，需要 replica 间复制	元数据在 ClickHouse-Keeper，所有 replica 共享
replica 间通信	需要直接通信复制数据和元数据	不直接通信，通过共享存储和 Keeper 协调
复制模型	同步/异步 leader-follower	异步 leaderless
扩容速度	需要复制数据到新 replica	新 replica 直接从共享存储读取元数据，秒级
最大 replica 数	受复制开销限制	可支持数百个 replica

SharedMergeTree 把存算分离推进到了更深层级：

异步 leaderless 复制：没有固定的 leader，所有 replica 平等地从 Keeper 获取元数据
共享存储承载数据：Amazon S3、Google Cloud Storage、MinIO、Azure Blob Storage 等
Keeper 只存储元数据：包括 part 列表、checksum、merge 计划等，数据本身不在 Keeper
自动引擎转换：在 ClickHouse Cloud 中，用户写 ENGINE = MergeTree 或 ENGINE = ReplacingMergeTree 时，系统会自动转换为对应的 SharedMergeTree 变体

SharedMergeTree 移除了部分 ReplicatedMergeTree 特有的系统表，因为不需要 replica 间复制：

移除：system.replication_queue、system.replicated_fetches
替代：
- system.virtual_parts — 替代 replication_queue，存储当前 parts 和进行中的 merge/mutation/drop 信息
- system.shared_merge_tree_fetches — 替代 replicated_fetches，记录主键和 checksum 加载到内存的进度

SharedMergeTree 提供了比 ReplicatedMergeTree 更轻量的一致性保证：

写入：默认就是 quorum 写入（元数据写入 Keeper quorum），不需要设置 insert_quorum
读取：大多数情况下不需要 select_sequential_consistency，异步复制的延迟极低
需要强一致性时的选择（按推荐顺序）：
1. 在同一 session 或同一节点读写（该 replica 已有最新元数据）
2. 写到一个 replica、从另一个 replica 读时，执行 SYSTEM SYNC REPLICA LIGHTWEIGHT
3. 在查询中设置 select_sequential_consistency

以下设置在 SharedMergeTree 中不再需要或行为改变：

SharedMergeTree 让我理解了 ClickHouse Cloud 为什么能做到”无分片 + 数百 replica”：它不是靠复制堆出来的，而是靠”共享存储 + Keeper 元数据”彻底解耦了计算和存储。这意味着：

这也解释了为什么 ClickHouse Cloud 可以支持 compute-compute separation 和动态扩缩容：底层引擎已经为”共享存储 + 无状态计算节点”做好了设计。