Qwen3.6-Plus 与 Gemma 4:同日发布的两款AI模型
Qwen3.6-Plus 和 Gemma 4 于同一天(2026年4月2日)发布,但走了截然不同的路线: 阿里巴巴的 Qwen3.6-Plus 是一款闭源 API 旗舰模型,主打”中国最强编程模型”和智能体(Agent)能力;Google DeepMind 的 Gemma 4 则是完全开源的模型家族(Apache 2.0),覆盖从边缘设备到服务器的四个尺寸。两者在基准测试中使用了不同的评测体系,无法进行完全对等的数值对比,但从各自公布的数据和第三方评测中,仍可勾勒出清晰的能力图谱。总体而言,Qwen3.6-Plus 在智能体编程(Agentic Coding)和中文多模态领域领先,Gemma 4 31B 在数学推理和竞赛编程(Competitive Programming)上表现极为强劲,两者在各自擅长的赛道上均达到了准一线水平。
两款模型的基本参数与架构差异
Qwen3.6-Plus 采用混合架构,将高效线性注意力机制与稀疏专家混合(MoE)路由结合,是”下一代混合架构”。阿里巴巴未公开具体参数量,但中文媒体报道称其规模不到 GLM-5 和 Kimi K2.5 的一半,却能匹配甚至超越后者。上下文窗口高达 100万 tokens,最大输出 65,536 tokens,支持始终开启的链式思维推理(always-on CoT),原生支持函数调用和多模态(文本+图像+视频)。该模型为闭源 API,仅通过阿里云百炼平台和 OpenRouter 提供服务。
Gemma 4 是一个四款模型的开源家族:
| 模型 | 参数量 | 架构 | 上下文 | 模态 |
|---|---|---|---|---|
| Gemma 4 31B | 30.7B(Dense) | 60层Transformer, GQA | 256K | 文本+图像+视频 |
| Gemma 4 26B-A4B | 25.2B总量 / 3.8B激活(MoE, 128专家, 8活跃+1共享) | 稀疏MoE | 256K | 文本+图像+视频 |
| Gemma 4 E4B | 8B总量 / 4.5B有效(PLE技术) | Dense | 128K | 文本+图像+视频+音频 |
| Gemma 4 E2B | 5.1B总量 / 2.3B有效 | Dense | 128K | 文本+图像+视频+音频 |
两者架构路线差异显著:Qwen3.6-Plus 走的是”大MoE + 超长上下文”的 API 旗舰路线,参数规模未知但推测在数百B级别;Gemma 4 走的是”高效开源 + 多尺寸覆盖”路线,最大仅 31B Dense,但引入了混合注意力(滑动窗口+全局)、双重RoPE、逐层嵌入(PLE)、共享KV缓存等创新架构设计,将效率推到极致。Gemma 4 的 MoE 变体每token仅激活 3.8B 参数,运行速度接近 4B 级模型。
基准测试成绩:不同赛道上的各自领先
由于两款模型公布的基准测试集几乎完全不同,以下分别列出各自的官方成绩,再进行交叉对比分析。
Qwen3.6-Plus 官方基准(智能体编程导向)
| 基准测试 | Qwen3.6-Plus | Claude 4.5 Opus | Gemini 3 Pro | GLM-5 | Kimi K2.5 |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 61.6 | 59.3 | — | 56.2 | 50.8 |
| SWE-bench Verified | 78.8 | 80.9 | — | 77.8 | 76.8 |
| SWE-bench Pro | 56.6 | 57.1 | — | 55.1 | 53.8 |
| SWE-bench Multilingual | 73.8 | — | 77.5 | 73.3 | 73.0 |
| Claw-Eval | 58.7 | 59.6 | — | 57.7 | 52.9 |
| OmniDocBench v1.5 | 91.2 | 87.7 | 87.7 | 88.5 | 88.8 |
| RealWorldQA | 85.4 | 77.0 | 83.3 | — | — |
| MMMU | 86.0 | — | 87.2 | — | 84.3 |
| Video-MME(含字幕) | 87.8 | 77.6 | 88.4 | — | 87.4 |
Gemma 4 官方基准(学术推理导向)
| 基准测试 | Gemma 4 31B | Gemma 4 26B-A4B | Gemma 4 E4B | Gemma 3 27B |
|---|---|---|---|---|
| MMLU Pro | 85.2% | 82.6% | 69.4% | 67.6% |
| AIME 2026 | 89.2% | 88.3% | 42.5% | 20.8% |
| GPQA Diamond | 84.3% | 82.3% | 58.6% | 42.4% |
| LiveCodeBench v6 | 80.0% | 77.1% | 52.0% | 29.1% |
| Codeforces ELO | 2,150 | 1,718 | 940 | 110 |
| MMMU Pro(视觉) | 76.9% | 73.8% | 52.6% | 49.7% |
| MATH-Vision | 85.6% | 82.4% | 59.5% | 46.0% |
| BigBench Extra Hard | 74.4% | 64.8% | — | 19.3% |
| MRCR v2 128K | 66.4% | 44.1% | 25.4% | 13.5% |
关键交叉分析: Gemma 4 31B 在 AIME 2026(89.2%)和 Codeforces ELO(2,150)上展现了极强的数学推理和算法竞赛能力,GPQA Diamond(84.3%)的科学推理也非常出色。Qwen3.6-Plus 则在实际工程场景的 SWE-bench Verified(78.8%)和 Terminal-Bench 2.0(61.6%)上表现突出,更贴近真实开发场景。值得注意的是,阿里巴巴在对比中刻意回避了 GPT-5.4(Terminal-Bench 2.0 得分 75.1%、SWE-bench Pro 57.7%,均高于 Qwen3.6-Plus),而 Google 则选择与自家 Gemma 3 做代际对比。
编程与推理能力的深层差异
Qwen3.6-Plus 的编程优势集中在”智能体编程”领域。 该模型专门针对 OpenClaw、Claude Code、Qwen Code、Kilo Code、Cline、OpenCode 等主流 AI 编程框架进行了优化,能够理解 UI 截图和线框图并生成功能性前端代码。其 preserve_thinking API 参数允许在多轮对话中保持推理上下文,对复杂项目的跨文件修改尤为有利。第三方 BridgeBench 评测显示,Qwen3.6-Plus 的 UI 生成能力得分 80.2(仅次于 GPT-5.4),代码功能性达 87.5%。但代码推理幻觉率为 26.5%,安全测试隐藏任务成功率仅 43.3%(低于 GPT-5.4 Mini 的 87.3%)。
Gemma 4 31B 的编程优势则体现在算法和竞赛编程上。 Codeforces ELO 从 Gemma 3 的 110 飙升至 2,150,LiveCodeBench v6 从 29.1% 跃升至 80.0%,属于代际级别的飞跃。Gemma 4 还原生支持结构化 JSON 输出和函数调用,配合可配置的思考模式(<|think|> token),在智能体工作流中也有竞争力。
在数学推理方面,Gemma 4 31B 的 AIME 2026 得分 89.2% 极为亮眼(Gemma 3 仅 20.8%)。Qwen3.6-Plus 未公布 AIME 分数,但从 Qwen3.5-Plus 在 AIME 2025 上约 49% 的成绩推测,即使有提升,大概率也难以匹敌 Gemma 4 在这一项上的表现。科学推理方面,Gemma 4 的 GPQA Diamond 84.3% 同样处于开源模型顶尖水平。
多模态能力各有侧重
两款模型均支持多模态输入,但能力范围不同。Qwen3.6-Plus 在文档理解领域明显领先——OmniDocBench v1.5 得分 91.2% 超越所有对手(Claude 4.5 Opus 仅 87.7%),RealWorldQA 85.4% 也大幅领先。这得益于 Qwen 系列在中文 OCR、表格解析、图表理解方面的长期积累。在视频理解方面,两者相当接近(Video-MME:Qwen 87.8% vs Gemini 3 Pro 88.4%)。
Gemma 4 的多模态亮点在于小模型的音频能力——E2B 和 E4B 支持音频输入(最长 30 秒),可以进行自动语音识别(ASR)和跨语言语音翻译,这是 Qwen3.6-Plus 和大多数同级模型所不具备的。此外,Gemma 4 支持可配置的图像 token 预算(70-1120 tokens/图),可变宽高比,以及原生 JSON 格式的目标检测边界框输出(1000×1000 坐标空间),非常适合视觉应用开发。
速度、成本与部署模式的根本差异
| 维度 | Qwen3.6-Plus | Gemma 4 31B | Gemma 4 26B-A4B |
|---|---|---|---|
| 推理速度 | 158 tok/s(BridgeBench 中位数) | 待独立测试 | 预计极快(仅3.8B激活) |
| 首token延迟 | 11,520ms(免费预览版) | 待测试 | 待测试 |
| API 定价(输入) | ¥2/百万tokens(~$0.28) | 开源免费自部署 | 开源免费自部署 |
| API 定价(输出) | 未公布详细价格 | Google AI Studio 提供 | Google AI Studio 提供 |
| 部署方式 | 仅云端 API | 本地/云端/边缘均可 | 本地/云端/边缘均可 |
| 最低硬件要求 | 无(API 调用) | 24GB VRAM(Q4量化) | 16GB VRAM(Q4量化) |
| 开源许可 | 闭源 | Apache 2.0 | Apache 2.0 |
成本差异巨大。 Qwen3.6-Plus 的 API 定价约 百万输入,比($3/M)便宜约 10 倍,比 GPT-5.4($2.50/M)便宜约 9 倍。但 Gemma 4 作为开源模型,自部署时边际成本趋近于零——Gemma 4 26B-A4B 的 MoE 变体仅激活 3.8B 参数,在消费级 GPU(RTX 4090/5090)上即可流畅运行,长期使用成本远低于任何 API。
Qwen3.6-Plus 的推理速度 158 tok/s 是一个亮点,约为 Claude Opus 4.6 的 3 倍、GPT-5.4 的 2 倍,但首 token 延迟在免费版高达 11.5 秒。Gemma 4 的速度尚待独立测试,但 Google 声称边缘模型比前代快 4 倍、省电 60%。
中文能力:Qwen 的主场优势依然牢固
Qwen3.6-Plus 在中文能力上拥有无可争议的结构性优势。 Qwen 系列使用 250K 词表覆盖 201 种语言和方言,对中日韩(CJK)文本的分词效率远高于 Gemma 4 的 262K 词表 / 140+ 语言设计。具体表现在:中文文档理解(OmniDocBench 91.2%)、中文 OCR 与手写识别、中文指令遵循、中文代码注释理解等方面均有深度优化。Qwen3.6-Plus 还无缝集成了悟空平台和千问 APP,生态上更贴近中文用户。
Gemma 4 的中文支持有所改善——声称支持 35+ 语言的开箱即用能力,且 MMLU-ProX 评测覆盖了 29 种语言的平均准确率。但从社区反馈来看,中文生成的流畅度和文化适应性仍逊于 Qwen 和 GLM 系列。在知乎上,有用户评价 Gemma 4 “目前测试感觉要比 Qwen 3.5 好很多”,但也有用户指出”从对比图来看,Gemma 4 稍微落后于阿里巴巴的 Qwen 3.5”。对于中文开发者而言,Qwen3.6-Plus 仍是更安全的选择。
同级模型横向对比全景
以下将 Qwen3.6-Plus 和 Gemma 4 31B 放入更广泛的模型格局中定位:
| 模型 | SWE-bench Verified | GPQA Diamond | 定价(输入/输出 $/M) | 上下文 | 开源 |
|---|---|---|---|---|---|
| GPT-5.4 | 74.9% | 92.0% | 15 | 400K | ❌ |
| Claude Opus 4.6 | ~80%+ | 91.3% | 25 | 200K | ❌ |
| Claude Sonnet 4.6 | 79.6% | ~74% | 15 | 200K-1M | ❌ |
| Gemini 3.1 Pro | 80.6% | 94.3% | 12 | 1M | ❌ |
| Gemini 3 Flash | 78% | 90.4% | 3 | 1M | ❌ |
| GPT-5.4 Mini | — | 87.5% | 4.50 | 400K | ❌ |
| Qwen3.6-Plus | 78.8% | 未公布 | ~$0.28 / 未公布 | 1M | ❌ |
| Gemma 4 31B | 未公布 | 84.3% | 开源自部署 | 256K | ✅ |
| GLM-5 | 77.8% | 86.0% | 开源 | — | ✅ |
| Kimi K2.5 | 76.8% | 87.6% | 开源 | — | ✅ |
定位分析: Qwen3.6-Plus 处于”准 Claude Opus”水平——SWE-bench Verified 78.8% 接近 Claude Sonnet 4.6 的 79.6%,Terminal-Bench 2.0 61.6% 略高于 Sonnet 的 59.1%,但低于 Gemini 3.1 Pro(68.5%)和 GPT-5.4(75.1%)。Gemma 4 31B 则在开源阵营中排名第三(LMArena ~1452),仅次于 GLM-5 和 Kimi K2.5,但考虑到它只有 31B 参数,这一效率比令人惊叹。
2026年3月的 Onyx AI 全模型排行榜将 Qwen 3.5 列入 A 级(与 Gemini 3.1 Pro、Claude Sonnet 4.6 同级),而 Gemma 3 27B 仅列入 C 级。Gemma 4 发布后预计可跃升至 A 级,但完整排名更新尚未出炉。
社区反馈与第三方评测速览
由于两款模型发布仅一天,深度第三方评测极为有限,但已有初步反馈值得关注。
关于 Qwen3.6-Plus: 中文社区(知乎、QbitAI、观察者网)普遍评价积极,认为其”终于解决了 Qwen3.5 过度思考简单问题的毛病”。开发者在 OpenRouter 免费预览版上报告的体验包括:编程任务响应更为果断、多轮对话保持上下文能力强、前端 UI 代码生成能力突出。BridgeBench 的独立评测指出代码幻觉率 26.5% 是一个隐患。VentureBeat 注意到阿里巴巴”已开始收回最新模型的开源发布”,Qwen3.6-Plus 是闭源的,这在开源社区引发了一些不满。
关于 Gemma 4: Hugging Face CEO Clément Delangue 称之为”里程碑式进步”。Reddit r/LocalLLaMA 社区对 Gemma 4 的 MoE 变体尤为兴奋——“the new efficiency king”(新的效率之王),仅 3.8B 激活参数即可达到 31B 97% 的性能。中文社区(知乎、53AI)关注到 Gemma 4 在 Arena 排行榜上仍落后于 GLM-5、Kimi K2.5 等中国开源模型,评价为”4月就看国产有没有新模型了,老的全军覆没”。Unsloth 团队已在发布当天推出量化版本,反馈”works really well”。欧洲科技媒体的标题则更为直白:“Gemma 4: Google’s New Open Source LLMs Lag Behind Chinese Competitors”。
结论:不同赛道的两个赢家
这不是一场简单的”谁更强”的对决,而是两种截然不同战略方向的碰撞。
选 Qwen3.6-Plus 的理由: 如果你的核心需求是中文环境下的智能体编程(Agent Coding)、长文档/视频理解、百万级上下文窗口,且接受 API 调用模式,Qwen3.6-Plus 提供了极具性价比的准一线能力——$0.28/M tokens 的价格仅为 Claude Sonnet 4.6 的 1/10。它在 SWE-bench 和 Terminal-Bench 上的表现证明了其实际工程价值。
选 Gemma 4 的理由: 如果你需要开源可控、本地部署、边缘推理、或强大的数学/科学推理能力,Gemma 4 是当前最佳选择之一。31B Dense 模型的 AIME 2026 89.2% 和 Codeforces 2,150 ELO 在开源模型中数一数二;26B MoE 变体的效率令人印象深刻;Apache 2.0 许可证消除了商用顾虑。
最值得关注的趋势: 中国开源模型群体(GLM-5、Kimi K2.5、Qwen 3.5、DeepSeek V3.2、MiniMax M2.5)已经在排行榜上形成压倒性优势,Gemma 4 虽然实现了代际飞跃,但在综合排名上仍位列中国模型之后。两款模型都刚发布一天,独立基准测试和深度社区评测仍在进行中,建议密切关注接下来两周的第三方验证结果。