Qwen3.6-Plus 与 Gemma 4:同日发布的两款AI模型

发布于:2026-04-04 · #AI #LLM #Agent

Qwen3.6-Plus 和 Gemma 4 于同一天(2026年4月2日)发布,但走了截然不同的路线: 阿里巴巴的 Qwen3.6-Plus 是一款闭源 API 旗舰模型,主打”中国最强编程模型”和智能体(Agent)能力;Google DeepMind 的 Gemma 4 则是完全开源的模型家族(Apache 2.0),覆盖从边缘设备到服务器的四个尺寸。两者在基准测试中使用了不同的评测体系,无法进行完全对等的数值对比,但从各自公布的数据和第三方评测中,仍可勾勒出清晰的能力图谱。总体而言,Qwen3.6-Plus 在智能体编程(Agentic Coding)和中文多模态领域领先,Gemma 4 31B 在数学推理和竞赛编程(Competitive Programming)上表现极为强劲,两者在各自擅长的赛道上均达到了准一线水平。


两款模型的基本参数与架构差异

Qwen3.6-Plus 采用混合架构,将高效线性注意力机制与稀疏专家混合(MoE)路由结合,是”下一代混合架构”。阿里巴巴未公开具体参数量,但中文媒体报道称其规模不到 GLM-5 和 Kimi K2.5 的一半,却能匹配甚至超越后者。上下文窗口高达 100万 tokens,最大输出 65,536 tokens,支持始终开启的链式思维推理(always-on CoT),原生支持函数调用和多模态(文本+图像+视频)。该模型为闭源 API,仅通过阿里云百炼平台和 OpenRouter 提供服务。

Gemma 4 是一个四款模型的开源家族:

模型参数量架构上下文模态
Gemma 4 31B30.7B(Dense)60层Transformer, GQA256K文本+图像+视频
Gemma 4 26B-A4B25.2B总量 / 3.8B激活(MoE, 128专家, 8活跃+1共享)稀疏MoE256K文本+图像+视频
Gemma 4 E4B8B总量 / 4.5B有效(PLE技术)Dense128K文本+图像+视频+音频
Gemma 4 E2B5.1B总量 / 2.3B有效Dense128K文本+图像+视频+音频

两者架构路线差异显著:Qwen3.6-Plus 走的是”大MoE + 超长上下文”的 API 旗舰路线,参数规模未知但推测在数百B级别;Gemma 4 走的是”高效开源 + 多尺寸覆盖”路线,最大仅 31B Dense,但引入了混合注意力(滑动窗口+全局)、双重RoPE、逐层嵌入(PLE)、共享KV缓存等创新架构设计,将效率推到极致。Gemma 4 的 MoE 变体每token仅激活 3.8B 参数,运行速度接近 4B 级模型。


基准测试成绩:不同赛道上的各自领先

由于两款模型公布的基准测试集几乎完全不同,以下分别列出各自的官方成绩,再进行交叉对比分析。

Qwen3.6-Plus 官方基准(智能体编程导向)

基准测试Qwen3.6-PlusClaude 4.5 OpusGemini 3 ProGLM-5Kimi K2.5
Terminal-Bench 2.061.659.356.250.8
SWE-bench Verified78.880.977.876.8
SWE-bench Pro56.657.155.153.8
SWE-bench Multilingual73.877.573.373.0
Claw-Eval58.759.657.752.9
OmniDocBench v1.591.287.787.788.588.8
RealWorldQA85.477.083.3
MMMU86.087.284.3
Video-MME(含字幕)87.877.688.487.4

Gemma 4 官方基准(学术推理导向)

基准测试Gemma 4 31BGemma 4 26B-A4BGemma 4 E4BGemma 3 27B
MMLU Pro85.2%82.6%69.4%67.6%
AIME 202689.2%88.3%42.5%20.8%
GPQA Diamond84.3%82.3%58.6%42.4%
LiveCodeBench v680.0%77.1%52.0%29.1%
Codeforces ELO2,1501,718940110
MMMU Pro(视觉)76.9%73.8%52.6%49.7%
MATH-Vision85.6%82.4%59.5%46.0%
BigBench Extra Hard74.4%64.8%19.3%
MRCR v2 128K66.4%44.1%25.4%13.5%

关键交叉分析: Gemma 4 31B 在 AIME 2026(89.2%)和 Codeforces ELO(2,150)上展现了极强的数学推理和算法竞赛能力,GPQA Diamond(84.3%)的科学推理也非常出色。Qwen3.6-Plus 则在实际工程场景的 SWE-bench Verified(78.8%)和 Terminal-Bench 2.0(61.6%)上表现突出,更贴近真实开发场景。值得注意的是,阿里巴巴在对比中刻意回避了 GPT-5.4(Terminal-Bench 2.0 得分 75.1%、SWE-bench Pro 57.7%,均高于 Qwen3.6-Plus),而 Google 则选择与自家 Gemma 3 做代际对比。


编程与推理能力的深层差异

Qwen3.6-Plus 的编程优势集中在”智能体编程”领域。 该模型专门针对 OpenClaw、Claude Code、Qwen Code、Kilo Code、Cline、OpenCode 等主流 AI 编程框架进行了优化,能够理解 UI 截图和线框图并生成功能性前端代码。其 preserve_thinking API 参数允许在多轮对话中保持推理上下文,对复杂项目的跨文件修改尤为有利。第三方 BridgeBench 评测显示,Qwen3.6-Plus 的 UI 生成能力得分 80.2(仅次于 GPT-5.4),代码功能性达 87.5%。但代码推理幻觉率为 26.5%,安全测试隐藏任务成功率仅 43.3%(低于 GPT-5.4 Mini 的 87.3%)。

Gemma 4 31B 的编程优势则体现在算法和竞赛编程上。 Codeforces ELO 从 Gemma 3 的 110 飙升至 2,150,LiveCodeBench v6 从 29.1% 跃升至 80.0%,属于代际级别的飞跃。Gemma 4 还原生支持结构化 JSON 输出和函数调用,配合可配置的思考模式(<|think|> token),在智能体工作流中也有竞争力。

在数学推理方面,Gemma 4 31B 的 AIME 2026 得分 89.2% 极为亮眼(Gemma 3 仅 20.8%)。Qwen3.6-Plus 未公布 AIME 分数,但从 Qwen3.5-Plus 在 AIME 2025 上约 49% 的成绩推测,即使有提升,大概率也难以匹敌 Gemma 4 在这一项上的表现。科学推理方面,Gemma 4 的 GPQA Diamond 84.3% 同样处于开源模型顶尖水平。


多模态能力各有侧重

两款模型均支持多模态输入,但能力范围不同。Qwen3.6-Plus 在文档理解领域明显领先——OmniDocBench v1.5 得分 91.2% 超越所有对手(Claude 4.5 Opus 仅 87.7%),RealWorldQA 85.4% 也大幅领先。这得益于 Qwen 系列在中文 OCR、表格解析、图表理解方面的长期积累。在视频理解方面,两者相当接近(Video-MME:Qwen 87.8% vs Gemini 3 Pro 88.4%)。

Gemma 4 的多模态亮点在于小模型的音频能力——E2B 和 E4B 支持音频输入(最长 30 秒),可以进行自动语音识别(ASR)和跨语言语音翻译,这是 Qwen3.6-Plus 和大多数同级模型所不具备的。此外,Gemma 4 支持可配置的图像 token 预算(70-1120 tokens/图),可变宽高比,以及原生 JSON 格式的目标检测边界框输出(1000×1000 坐标空间),非常适合视觉应用开发。


速度、成本与部署模式的根本差异

维度Qwen3.6-PlusGemma 4 31BGemma 4 26B-A4B
推理速度158 tok/s(BridgeBench 中位数)待独立测试预计极快(仅3.8B激活)
首token延迟11,520ms(免费预览版)待测试待测试
API 定价(输入)¥2/百万tokens(~$0.28)开源免费自部署开源免费自部署
API 定价(输出)未公布详细价格Google AI Studio 提供Google AI Studio 提供
部署方式仅云端 API本地/云端/边缘均可本地/云端/边缘均可
最低硬件要求无(API 调用)24GB VRAM(Q4量化)16GB VRAM(Q4量化)
开源许可闭源Apache 2.0Apache 2.0

成本差异巨大。 Qwen3.6-Plus 的 API 定价约 百万输入,比($3/M)便宜约 10 倍,比 GPT-5.4($2.50/M)便宜约 9 倍。但 Gemma 4 作为开源模型,自部署时边际成本趋近于零——Gemma 4 26B-A4B 的 MoE 变体仅激活 3.8B 参数,在消费级 GPU(RTX 4090/5090)上即可流畅运行,长期使用成本远低于任何 API。

Qwen3.6-Plus 的推理速度 158 tok/s 是一个亮点,约为 Claude Opus 4.6 的 3 倍、GPT-5.4 的 2 倍,但首 token 延迟在免费版高达 11.5 秒。Gemma 4 的速度尚待独立测试,但 Google 声称边缘模型比前代快 4 倍、省电 60%。


中文能力:Qwen 的主场优势依然牢固

Qwen3.6-Plus 在中文能力上拥有无可争议的结构性优势。 Qwen 系列使用 250K 词表覆盖 201 种语言和方言,对中日韩(CJK)文本的分词效率远高于 Gemma 4 的 262K 词表 / 140+ 语言设计。具体表现在:中文文档理解(OmniDocBench 91.2%)、中文 OCR 与手写识别、中文指令遵循、中文代码注释理解等方面均有深度优化。Qwen3.6-Plus 还无缝集成了悟空平台和千问 APP,生态上更贴近中文用户。

Gemma 4 的中文支持有所改善——声称支持 35+ 语言的开箱即用能力,且 MMLU-ProX 评测覆盖了 29 种语言的平均准确率。但从社区反馈来看,中文生成的流畅度和文化适应性仍逊于 Qwen 和 GLM 系列。在知乎上,有用户评价 Gemma 4 “目前测试感觉要比 Qwen 3.5 好很多”,但也有用户指出”从对比图来看,Gemma 4 稍微落后于阿里巴巴的 Qwen 3.5”。对于中文开发者而言,Qwen3.6-Plus 仍是更安全的选择。


同级模型横向对比全景

以下将 Qwen3.6-Plus 和 Gemma 4 31B 放入更广泛的模型格局中定位:

模型SWE-bench VerifiedGPQA Diamond定价(输入/输出 $/M)上下文开源
GPT-5.474.9%92.0%15400K
Claude Opus 4.6~80%+91.3%25200K
Claude Sonnet 4.679.6%~74%15200K-1M
Gemini 3.1 Pro80.6%94.3%121M
Gemini 3 Flash78%90.4%31M
GPT-5.4 Mini87.5%4.50400K
Qwen3.6-Plus78.8%未公布~$0.28 / 未公布1M
Gemma 4 31B未公布84.3%开源自部署256K
GLM-577.8%86.0%开源
Kimi K2.576.8%87.6%开源

定位分析: Qwen3.6-Plus 处于”准 Claude Opus”水平——SWE-bench Verified 78.8% 接近 Claude Sonnet 4.6 的 79.6%,Terminal-Bench 2.0 61.6% 略高于 Sonnet 的 59.1%,但低于 Gemini 3.1 Pro(68.5%)和 GPT-5.4(75.1%)。Gemma 4 31B 则在开源阵营中排名第三(LMArena ~1452),仅次于 GLM-5 和 Kimi K2.5,但考虑到它只有 31B 参数,这一效率比令人惊叹。

2026年3月的 Onyx AI 全模型排行榜将 Qwen 3.5 列入 A 级(与 Gemini 3.1 Pro、Claude Sonnet 4.6 同级),而 Gemma 3 27B 仅列入 C 级。Gemma 4 发布后预计可跃升至 A 级,但完整排名更新尚未出炉。


社区反馈与第三方评测速览

由于两款模型发布仅一天,深度第三方评测极为有限,但已有初步反馈值得关注。

关于 Qwen3.6-Plus: 中文社区(知乎、QbitAI、观察者网)普遍评价积极,认为其”终于解决了 Qwen3.5 过度思考简单问题的毛病”。开发者在 OpenRouter 免费预览版上报告的体验包括:编程任务响应更为果断、多轮对话保持上下文能力强、前端 UI 代码生成能力突出。BridgeBench 的独立评测指出代码幻觉率 26.5% 是一个隐患。VentureBeat 注意到阿里巴巴”已开始收回最新模型的开源发布”,Qwen3.6-Plus 是闭源的,这在开源社区引发了一些不满。

关于 Gemma 4: Hugging Face CEO Clément Delangue 称之为”里程碑式进步”。Reddit r/LocalLLaMA 社区对 Gemma 4 的 MoE 变体尤为兴奋——“the new efficiency king”(新的效率之王),仅 3.8B 激活参数即可达到 31B 97% 的性能。中文社区(知乎、53AI)关注到 Gemma 4 在 Arena 排行榜上仍落后于 GLM-5、Kimi K2.5 等中国开源模型,评价为”4月就看国产有没有新模型了,老的全军覆没”。Unsloth 团队已在发布当天推出量化版本,反馈”works really well”。欧洲科技媒体的标题则更为直白:“Gemma 4: Google’s New Open Source LLMs Lag Behind Chinese Competitors”。


结论:不同赛道的两个赢家

这不是一场简单的”谁更强”的对决,而是两种截然不同战略方向的碰撞

选 Qwen3.6-Plus 的理由: 如果你的核心需求是中文环境下的智能体编程(Agent Coding)、长文档/视频理解、百万级上下文窗口,且接受 API 调用模式,Qwen3.6-Plus 提供了极具性价比的准一线能力——$0.28/M tokens 的价格仅为 Claude Sonnet 4.6 的 1/10。它在 SWE-bench 和 Terminal-Bench 上的表现证明了其实际工程价值。

选 Gemma 4 的理由: 如果你需要开源可控、本地部署、边缘推理、或强大的数学/科学推理能力,Gemma 4 是当前最佳选择之一。31B Dense 模型的 AIME 2026 89.2% 和 Codeforces 2,150 ELO 在开源模型中数一数二;26B MoE 变体的效率令人印象深刻;Apache 2.0 许可证消除了商用顾虑。

最值得关注的趋势: 中国开源模型群体(GLM-5、Kimi K2.5、Qwen 3.5、DeepSeek V3.2、MiniMax M2.5)已经在排行榜上形成压倒性优势,Gemma 4 虽然实现了代际飞跃,但在综合排名上仍位列中国模型之后。两款模型都刚发布一天,独立基准测试和深度社区评测仍在进行中,建议密切关注接下来两周的第三方验证结果。