Qwen3.6-Plus 与 Gemma 4：同日发布的两款AI模型

Qwen3.6-Plus 和 Gemma 4 于同一天（2026年4月2日）发布，但走了截然不同的路线： 阿里巴巴的 Qwen3.6-Plus 是一款闭源 API 旗舰模型，主打”中国最强编程模型”和智能体（Agent）能力；Google DeepMind 的 Gemma 4 则是完全开源的模型家族（Apache 2.0），覆盖从边缘设备到服务器的四个尺寸。两者在基准测试中使用了不同的评测体系，无法进行完全对等的数值对比，但从各自公布的数据和第三方评测中，仍可勾勒出清晰的能力图谱。总体而言，Qwen3.6-Plus 在智能体编程（Agentic Coding）和中文多模态领域领先，Gemma 4 31B 在数学推理和竞赛编程（Competitive Programming）上表现极为强劲，两者在各自擅长的赛道上均达到了准一线水平。

两款模型的基本参数与架构差异

Qwen3.6-Plus 采用混合架构，将高效线性注意力机制与稀疏专家混合（MoE）路由结合，是”下一代混合架构”。阿里巴巴未公开具体参数量，但中文媒体报道称其规模不到 GLM-5 和 Kimi K2.5 的一半，却能匹配甚至超越后者。上下文窗口高达 100万 tokens，最大输出 65,536 tokens，支持始终开启的链式思维推理（always-on CoT），原生支持函数调用和多模态（文本+图像+视频）。该模型为闭源 API，仅通过阿里云百炼平台和 OpenRouter 提供服务。

Gemma 4 是一个四款模型的开源家族：

模型	参数量	架构	上下文	模态
Gemma 4 31B	30.7B（Dense）	60层Transformer, GQA	256K	文本+图像+视频
Gemma 4 26B-A4B	25.2B总量 / 3.8B激活（MoE, 128专家, 8活跃+1共享）	稀疏MoE	256K	文本+图像+视频
Gemma 4 E4B	8B总量 / 4.5B有效（PLE技术）	Dense	128K	文本+图像+视频+音频
Gemma 4 E2B	5.1B总量 / 2.3B有效	Dense	128K	文本+图像+视频+音频

两者架构路线差异显著：Qwen3.6-Plus 走的是”大MoE + 超长上下文”的 API 旗舰路线，参数规模未知但推测在数百B级别；Gemma 4 走的是”高效开源 + 多尺寸覆盖”路线，最大仅 31B Dense，但引入了混合注意力（滑动窗口+全局）、双重RoPE、逐层嵌入（PLE）、共享KV缓存等创新架构设计，将效率推到极致。Gemma 4 的 MoE 变体每token仅激活 3.8B 参数，运行速度接近 4B 级模型。

基准测试成绩：不同赛道上的各自领先

由于两款模型公布的基准测试集几乎完全不同，以下分别列出各自的官方成绩，再进行交叉对比分析。

Qwen3.6-Plus 官方基准（智能体编程导向）

基准测试	Qwen3.6-Plus	Claude 4.5 Opus	Gemini 3 Pro	GLM-5	Kimi K2.5
Terminal-Bench 2.0	61.6	59.3	—	56.2	50.8
SWE-bench Verified	78.8	80.9	—	77.8	76.8
SWE-bench Pro	56.6	57.1	—	55.1	53.8
SWE-bench Multilingual	73.8	—	77.5	73.3	73.0
Claw-Eval	58.7	59.6	—	57.7	52.9
OmniDocBench v1.5	91.2	87.7	87.7	88.5	88.8
RealWorldQA	85.4	77.0	83.3	—	—
MMMU	86.0	—	87.2	—	84.3
Video-MME（含字幕）	87.8	77.6	88.4	—	87.4

Gemma 4 官方基准（学术推理导向）

基准测试	Gemma 4 31B	Gemma 4 26B-A4B	Gemma 4 E4B	Gemma 3 27B
MMLU Pro	85.2%	82.6%	69.4%	67.6%
AIME 2026	89.2%	88.3%	42.5%	20.8%
GPQA Diamond	84.3%	82.3%	58.6%	42.4%
LiveCodeBench v6	80.0%	77.1%	52.0%	29.1%
Codeforces ELO	2,150	1,718	940	110
MMMU Pro（视觉）	76.9%	73.8%	52.6%	49.7%
MATH-Vision	85.6%	82.4%	59.5%	46.0%
BigBench Extra Hard	74.4%	64.8%	—	19.3%
MRCR v2 128K	66.4%	44.1%	25.4%	13.5%

关键交叉分析： Gemma 4 31B 在 AIME 2026（89.2%）和 Codeforces ELO（2,150）上展现了极强的数学推理和算法竞赛能力，GPQA Diamond（84.3%）的科学推理也非常出色。Qwen3.6-Plus 则在实际工程场景的 SWE-bench Verified（78.8%）和 Terminal-Bench 2.0（61.6%）上表现突出，更贴近真实开发场景。值得注意的是，阿里巴巴在对比中刻意回避了 GPT-5.4（Terminal-Bench 2.0 得分 75.1%、SWE-bench Pro 57.7%，均高于 Qwen3.6-Plus），而 Google 则选择与自家 Gemma 3 做代际对比。

编程与推理能力的深层差异

Qwen3.6-Plus 的编程优势集中在”智能体编程”领域。 该模型专门针对 OpenClaw、Claude Code、Qwen Code、Kilo Code、Cline、OpenCode 等主流 AI 编程框架进行了优化，能够理解 UI 截图和线框图并生成功能性前端代码。其 preserve_thinking API 参数允许在多轮对话中保持推理上下文，对复杂项目的跨文件修改尤为有利。第三方 BridgeBench 评测显示，Qwen3.6-Plus 的 UI 生成能力得分 80.2（仅次于 GPT-5.4），代码功能性达 87.5%。但代码推理幻觉率为 26.5%，安全测试隐藏任务成功率仅 43.3%（低于 GPT-5.4 Mini 的 87.3%）。

Gemma 4 31B 的编程优势则体现在算法和竞赛编程上。 Codeforces ELO 从 Gemma 3 的 110 飙升至 2,150，LiveCodeBench v6 从 29.1% 跃升至 80.0%，属于代际级别的飞跃。Gemma 4 还原生支持结构化 JSON 输出和函数调用，配合可配置的思考模式（<|think|> token），在智能体工作流中也有竞争力。

在数学推理方面，Gemma 4 31B 的 AIME 2026 得分 89.2% 极为亮眼（Gemma 3 仅 20.8%）。Qwen3.6-Plus 未公布 AIME 分数，但从 Qwen3.5-Plus 在 AIME 2025 上约 49% 的成绩推测，即使有提升，大概率也难以匹敌 Gemma 4 在这一项上的表现。科学推理方面，Gemma 4 的 GPQA Diamond 84.3% 同样处于开源模型顶尖水平。

多模态能力各有侧重

两款模型均支持多模态输入，但能力范围不同。Qwen3.6-Plus 在文档理解领域明显领先——OmniDocBench v1.5 得分 91.2% 超越所有对手（Claude 4.5 Opus 仅 87.7%），RealWorldQA 85.4% 也大幅领先。这得益于 Qwen 系列在中文 OCR、表格解析、图表理解方面的长期积累。在视频理解方面，两者相当接近（Video-MME：Qwen 87.8% vs Gemini 3 Pro 88.4%）。

Gemma 4 的多模态亮点在于小模型的音频能力——E2B 和 E4B 支持音频输入（最长 30 秒），可以进行自动语音识别（ASR）和跨语言语音翻译，这是 Qwen3.6-Plus 和大多数同级模型所不具备的。此外，Gemma 4 支持可配置的图像 token 预算（70-1120 tokens/图），可变宽高比，以及原生 JSON 格式的目标检测边界框输出（1000×1000 坐标空间），非常适合视觉应用开发。

速度、成本与部署模式的根本差异

维度	Qwen3.6-Plus	Gemma 4 31B	Gemma 4 26B-A4B
推理速度	158 tok/s（BridgeBench 中位数）	待独立测试	预计极快（仅3.8B激活）
首token延迟	11,520ms（免费预览版）	待测试	待测试
API 定价（输入）	¥2/百万tokens（~$0.28）	开源免费自部署	开源免费自部署
API 定价（输出）	未公布详细价格	Google AI Studio 提供	Google AI Studio 提供
部署方式	仅云端 API	本地/云端/边缘均可	本地/云端/边缘均可
最低硬件要求	无（API 调用）	24GB VRAM（Q4量化）	16GB VRAM（Q4量化）
开源许可	闭源	Apache 2.0	Apache 2.0

成本差异巨大。 Qwen3.6-Plus 的 API 定价约百万输入，比（$3/M）便宜约 10 倍，比 GPT-5.4（$2.50/M）便宜约 9 倍。但 Gemma 4 作为开源模型，自部署时边际成本趋近于零——Gemma 4 26B-A4B 的 MoE 变体仅激活 3.8B 参数，在消费级 GPU（RTX 4090/5090）上即可流畅运行，长期使用成本远低于任何 API。

Qwen3.6-Plus 的推理速度 158 tok/s 是一个亮点，约为 Claude Opus 4.6 的 3 倍、GPT-5.4 的 2 倍，但首 token 延迟在免费版高达 11.5 秒。Gemma 4 的速度尚待独立测试，但 Google 声称边缘模型比前代快 4 倍、省电 60%。

中文能力：Qwen 的主场优势依然牢固

Qwen3.6-Plus 在中文能力上拥有无可争议的结构性优势。 Qwen 系列使用 250K 词表覆盖 201 种语言和方言，对中日韩（CJK）文本的分词效率远高于 Gemma 4 的 262K 词表 / 140+ 语言设计。具体表现在：中文文档理解（OmniDocBench 91.2%）、中文 OCR 与手写识别、中文指令遵循、中文代码注释理解等方面均有深度优化。Qwen3.6-Plus 还无缝集成了悟空平台和千问 APP，生态上更贴近中文用户。

Gemma 4 的中文支持有所改善——声称支持 35+ 语言的开箱即用能力，且 MMLU-ProX 评测覆盖了 29 种语言的平均准确率。但从社区反馈来看，中文生成的流畅度和文化适应性仍逊于 Qwen 和 GLM 系列。在知乎上，有用户评价 Gemma 4 “目前测试感觉要比 Qwen 3.5 好很多”，但也有用户指出”从对比图来看，Gemma 4 稍微落后于阿里巴巴的 Qwen 3.5”。对于中文开发者而言，Qwen3.6-Plus 仍是更安全的选择。

同级模型横向对比全景

以下将 Qwen3.6-Plus 和 Gemma 4 31B 放入更广泛的模型格局中定位：

模型	SWE-bench Verified	GPQA Diamond	定价(输入/输出 $/M)	上下文	开源
GPT-5.4	74.9%	92.0%	15	400K	❌
Claude Opus 4.6	~80%+	91.3%	25	200K	❌
Claude Sonnet 4.6	79.6%	~74%	15	200K-1M	❌
Gemini 3.1 Pro	80.6%	94.3%	12	1M	❌
Gemini 3 Flash	78%	90.4%	3	1M	❌
GPT-5.4 Mini	—	87.5%	4.50	400K	❌
Qwen3.6-Plus	78.8%	未公布	~$0.28 / 未公布	1M	❌
Gemma 4 31B	未公布	84.3%	开源自部署	256K	✅
GLM-5	77.8%	86.0%	开源	—	✅
Kimi K2.5	76.8%	87.6%	开源	—	✅

定位分析： Qwen3.6-Plus 处于”准 Claude Opus”水平——SWE-bench Verified 78.8% 接近 Claude Sonnet 4.6 的 79.6%，Terminal-Bench 2.0 61.6% 略高于 Sonnet 的 59.1%，但低于 Gemini 3.1 Pro（68.5%）和 GPT-5.4（75.1%）。Gemma 4 31B 则在开源阵营中排名第三（LMArena ~1452），仅次于 GLM-5 和 Kimi K2.5，但考虑到它只有 31B 参数，这一效率比令人惊叹。

2026年3月的 Onyx AI 全模型排行榜将 Qwen 3.5 列入 A 级（与 Gemini 3.1 Pro、Claude Sonnet 4.6 同级），而 Gemma 3 27B 仅列入 C 级。Gemma 4 发布后预计可跃升至 A 级，但完整排名更新尚未出炉。

社区反馈与第三方评测速览

由于两款模型发布仅一天，深度第三方评测极为有限，但已有初步反馈值得关注。

关于 Qwen3.6-Plus： 中文社区（知乎、QbitAI、观察者网）普遍评价积极，认为其”终于解决了 Qwen3.5 过度思考简单问题的毛病”。开发者在 OpenRouter 免费预览版上报告的体验包括：编程任务响应更为果断、多轮对话保持上下文能力强、前端 UI 代码生成能力突出。BridgeBench 的独立评测指出代码幻觉率 26.5% 是一个隐患。VentureBeat 注意到阿里巴巴”已开始收回最新模型的开源发布”，Qwen3.6-Plus 是闭源的，这在开源社区引发了一些不满。

关于 Gemma 4： Hugging Face CEO Clément Delangue 称之为”里程碑式进步”。Reddit r/LocalLLaMA 社区对 Gemma 4 的 MoE 变体尤为兴奋——“the new efficiency king”（新的效率之王），仅 3.8B 激活参数即可达到 31B 97% 的性能。中文社区（知乎、53AI）关注到 Gemma 4 在 Arena 排行榜上仍落后于 GLM-5、Kimi K2.5 等中国开源模型，评价为”4月就看国产有没有新模型了，老的全军覆没”。Unsloth 团队已在发布当天推出量化版本，反馈”works really well”。欧洲科技媒体的标题则更为直白：“Gemma 4: Google’s New Open Source LLMs Lag Behind Chinese Competitors”。

结论：不同赛道的两个赢家

这不是一场简单的”谁更强”的对决，而是两种截然不同战略方向的碰撞。

选 Qwen3.6-Plus 的理由： 如果你的核心需求是中文环境下的智能体编程（Agent Coding）、长文档/视频理解、百万级上下文窗口，且接受 API 调用模式，Qwen3.6-Plus 提供了极具性价比的准一线能力——$0.28/M tokens 的价格仅为 Claude Sonnet 4.6 的 1/10。它在 SWE-bench 和 Terminal-Bench 上的表现证明了其实际工程价值。

选 Gemma 4 的理由： 如果你需要开源可控、本地部署、边缘推理、或强大的数学/科学推理能力，Gemma 4 是当前最佳选择之一。31B Dense 模型的 AIME 2026 89.2% 和 Codeforces 2,150 ELO 在开源模型中数一数二；26B MoE 变体的效率令人印象深刻；Apache 2.0 许可证消除了商用顾虑。

最值得关注的趋势： 中国开源模型群体（GLM-5、Kimi K2.5、Qwen 3.5、DeepSeek V3.2、MiniMax M2.5）已经在排行榜上形成压倒性优势，Gemma 4 虽然实现了代际飞跃，但在综合排名上仍位列中国模型之后。两款模型都刚发布一天，独立基准测试和深度社区评测仍在进行中，建议密切关注接下来两周的第三方验证结果。