OpenRouter Fusion 拆解：把「多模型审议」做成一个可直接调用的 API

一、Fusion 到底是什么：不是一个模型，而是一条流水线

很多人第一次在 OpenRouter 的模型列表里看到 openrouter/fusion 时，会下意识把它当成又一款新的大语言模型。这种理解是错的。

Fusion 是 OpenRouter 于 2026 年 6 月 13 日 正式上线的一项原生功能，官方将其定位为 「多模型审议系统」（multi-model deliberation） 或 「复合模型 API」（compound model API）。它在官网导航中和 Models、Chat、Rankings 并列，是一级入口；模型卡片明确标注 Provider 为 OpenRouter 自家，上下文窗口 128K（openrouter.ai/fusion、openrouter.ai/openrouter/fusion）。

简单说：当你向 openrouter/fusion 发一个提示时，背后并不是某一个具体模型在回答你，而是 一个由最多 8 个模型组成的「专家面板」先各自独立作答，然后由一个 judge 模型对这些回答做结构化对比，最后再由一个 synthesizer 综合成终稿。

它和你过去理解的「路由器」或「模型聚合器」完全不是同一类东西——后者通常是「从 N 个模型里挑一个最合适的来回答」，而 Fusion 是 让 N 个模型都回答，再对比、再综合。

二、三个入口，一条流水线

Fusion 给开发者提供了三种使用姿势，但官方文档反复强调：「All three entry points hit the same pipeline.」（plugins/fusion）

模型别名 openrouter/fusion——最简单。你像调用普通模型一样直接传 slug，OpenRouter 帮你跑完整条流水线。
服务器工具 openrouter:fusion——目前仍标记为 beta。允许任何模型把 Fusion 当成可调用的工具，由模型自己决定何时审议。
Fusion 插件——配置层，用来调整 panel 模型清单、judge、是否启用 web 检索等参数。

底层的 router 当前包含 6 个模型；analysis_models 字段允许指定 1–8 个面板成员（fusion-router）。

三、工作流程拆解：Panel → Judge → Synthesizer

官方文档把过程拆为三个阶段，也可以细分为六步。核心逻辑如下：

第一阶段：Panel（并行作答） 用户的提示被并行发给面板中的每个模型。默认 Quality 预设下，面板是 Claude Opus Latest、GPT Latest、Gemini Pro Latest 三家最新版同台。每个面板模型都会自动启用 openrouter:web_search 与 openrouter:web_fetch 两个服务器工具，因此它们都可以在回答前去互联网取证。

第二阶段：Judge（结构化对比） 所有面板回答返回后，由一个 judge 模型读取。注意：这里 OpenRouter 反复强调「judge compares them — it doesn’t merge them」。judge 并不输出最终答案，而是输出一段结构化 JSON，列出五项内容：

Consensus：哪些点是多个模型一致认同的
Contradictions：哪些点彼此矛盾
Partial coverage：哪些细节只有部分模型提到
Unique insights：哪些独到见解
Blind spots：哪些显著盲点

默认情况下，judge 就是面板里的第一个模型（即 Claude Opus Latest）。

第三阶段：Synthesizer（撰写终稿） 最后由 synthesizer / 调用模型基于 judge 的 JSON 写出真正回给用户的答案。

整条流水线的意义在于：它把「多模型集成」从拼接式的暴力合并，升级成了 「先对比、后撰写」 的两层架构。模型之间的冲突不会被掩盖，反而会显式暴露给 judge 与 synthesizer 处理。

四、参数与能力速查

项目	取值
提供方	OpenRouter（自有）
上下文窗口	128K
面板规模	1–8 个模型
默认 Quality 预设	Claude Opus Latest / GPT Latest / Gemini Pro Latest
Router 当前包含模型数	6
面板检索能力	默认启用 web_search + web_fetch
服务器工具状态	beta（API 与行为可能变化）
模型别名页价格	$0/M token（实际按底层调用计费）
发布日期	2026-06-13

五、定价模型：别名是「$0」，账单可不一定

Fusion 的计费方式是这次产品里最容易被误解的部分。

官方页 openrouter/fusion 上显示价格为 $0/M token，但这并不意味着它免费。文档原文说得很直接：「priced as the sum of those underlying completions rather than a single model.」——你支付的，是面板内所有补全调用的总和，再加上 judge 和 synthesizer 的调用。

OpenRouter 给出的经验值是：在 默认 3 模型面板 下，Fusion 的总成本大约是同一提示直接调用单个模型的 4–5 倍，而且 「Cost scales linearly with panel size」——你把面板扩到 6 个模型，成本就会按比例增长。

这一点对企业用户尤其重要：Fusion 的边际成本结构与传统单一模型完全不同，必须在用户体量和回答价值之间做加减法。它适合那些「宁可多花 5 倍钱也要把一次回答做对」的场景；如果是大流量、低价值的常规问答，单模型 + RAG 仍然更划算。

六、性能与对比：DRACO 基准上的两组关键数字

OpenRouter 在发布 Fusion 时配套放出了一组基准数据，主要跑的是 Perplexity 提出的 DRACO 深度研究基准（100 个任务、10 个领域）。

最受关注的两组对比：

Quality 路线：以 Fable 5 + GPT-5.5 组成面板，由 Opus 4.8 合成，得分 69.0%；作为对照，单独跑 Fable 5 是 65.3%。
Budget 路线：以 Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro 组成预算面板，得分 64.7%。这组数字在 DRACO 上既击败了 GPT-5.5、也击败了 Claude Opus 4.8，与 Fable 5 仅差不到 1 个百分点，而成本约为 Fable 5 单跑的一半（fusion-beats-frontier、officechai 报道）。

如果这些数字成立，意味着两件事：第一，多模型审议确实可以把一组中等模型抬到接近前沿模型的水平；第二，前沿单一模型的「性价比上限」并不是终点。

但请务必注意以下几点免责声明：

所有性能数字 完全来自 OpenRouter 自报基准，没有独立第三方复现。
OpenRouter 自承用 Gemini 3.1 Pro Preview 替换了 DRACO 原论文的 Gemini 3 Pro 作 judge；DRACO 作者本人指出，更换 judge 可能造成 10–25 分的分数波动。因此该分数与 DRACO 原论文 不能直接横向比较。
面板模型可以走 web_search，理论上可能在搜索过程中触达评分细则，使分数偏乐观。

换句话说，64.7% 和 69.0% 这两个数字应该被当作 「在 OpenRouter 自家设置下的厂商口径成绩」，而不是「全球客观排名」。

七、Fusion 与传统路由 / 聚合的关键差异

为了避免概念混淆，把 Fusion 放在更大的「多模型基础设施」光谱里看：

传统路由器（如基于成本 / 延迟 / 标签挑选模型）：从 N 个模型中 挑一个 回答 → Fusion 让 N 个全部 回答。
Mixture-of-Experts（MoE）：在模型内部不同 token 走不同子网络 → Fusion 在 模型之间 做加权与对比，颗粒度是「模型」。
传统集成（ensemble / 投票）：直接对输出做平均或多数表决 → Fusion 的 judge 不合并文本，而是输出 JSON 化的对比报告，把决策留给 synthesizer。

这种「先比较、再撰写」的两层结构，是 Fusion 与同类产品最本质的差别。

八、典型使用场景与不适用场景

适用：

深度研究、文献综述、跨源事实核查
多视角对比型问题（同一个话题想看不同模型怎么说）
单模型容易出盲点或幻觉的高风险问答
需要 web 取证的回答（默认就开了 web_search/web_fetch）

不适用（或慎用）：

高频、低价值的对话任务——成本会被线性放大 4–5 倍
极低延迟场景——三阶段流水线意味着 至少 3 轮调用，TTFT 与端到端延迟必然高于单模型，且官方尚未公布延迟数据
强一致性、确定性输出场景——审议过程引入了额外的不可控环节

九、已知问题与开放疑问

研究过程中收集到的、值得关注的待办清单：

没有独立第三方基准。 截至目前，DRACO 之外的 GPQA、HELM、SWE-bench、SimpleQA 等基准上都没有公开的 Fusion 数据。「击败前沿模型」是单一来源主张，理性的做法是把它当作市场宣传而不是结论。
Beta 状态。 openrouter:fusion 服务器工具页明确写着 beta，意味着接口签名、行为、定价都可能在没有提前通知的情况下变化。
数据合规与隐私。 面板默认会把同一提示发给三家不同厂商（Anthropic / OpenAI / Google）。如果你的提示包含敏感数据，必须确认 OpenRouter 与底层厂商各自的数据留存与训练政策能否满足合规要求。
降级策略未公开。 当面板里某个模型超时或拒答时如何降级？OpenRouter 暂未公开 SLA 与错误处理细节。
judge / synthesizer 是否可独立指定。 文档主要描述了 analysis_models 与 model（judge），但 synthesizer 在工程实现上是否就是 judge 的同一次调用，目前公开材料表述并不完全一致。
社区反馈样本太小。 距离 6 月 13 日发布仅数日，HackerNews、Reddit 与独立评测社区都尚未给出系统性反馈，主要二手信息源仍是 officechai、digg、KuCoin、cryptobriefing 等转述。

十、结语：值不值得用

Fusion 的核心想法既不新——多模型集成是学界老话题——也很新：把「先比较、后撰写」做成一个像普通模型一样调用的 API，并且把 web 检索默认装在每个面板成员身上，让审议过程天然带「取证能力」。这在 2026 年中这个时间点上是一个相当克制、相当工程化的产品决策。

但目前公开材料里的所有性能优势都是 OpenRouter 自家口径。如果你正在评估是否把 Fusion 引入生产系统，比较稳妥的路径是：

用你自己的真实任务，对 Fusion、Fable 5、Opus 4.8、GPT-5.5 做一组 A/B；
把成本因子直接打进评估指标里（Fusion 是单模型 4–5 倍）；
别让 beta 状态的服务器工具进核心链路，先从 openrouter/fusion 这个稳定别名开始用。