AI 一周要闻(2026年5月26日–6月2日):微软 Build 唱主角,Claude Opus 4.8 与安全议题升温
本周是 AI 行业节奏密集的一周。压轴登场的微软 Build 2026 大会把”智能体”推上前台,微软一口气端出 7 款自研 MAI 模型、GitHub Copilot 桌面应用、Foundry IQ 与 Microsoft Scout,并宣布与梅奥诊所共建医疗前沿模型,释放出”不再只做 OpenAI 分销商”的强烈信号。模型侧,Anthropic 抢在 Build 之前发布 Claude Opus 4.8,主打诚实度与动态工作流;OpenAI 的 GPT-5.5 与 Codex 正式在 AWS Bedrock 上线 GA。安全与监管同样是本周关键词:Anthropic 的 Project Glasswing 一个月挖出上万个高危漏洞,欧盟 AI 法案”数字综合法案”敲定延期,Bartz 诉 Anthropic 版权案完成终审听证。国内方面,阿里、MiniMax 等也在窗口期内有新动作。以下是本周值得关注的要闻。
微软 Build 2026:押注智能体,自研模型全面登场
微软 Build 2026 主旨演讲:纳德拉勾勒”智能体技术栈”五层架构
来源:The Official Microsoft Blog|日期:2026-06-02
微软 Build 2026 于 6 月 2 日在旧金山 Fort Mason 开幕,CEO 萨提亚·纳德拉在主旨演讲中提出由算力、模型、上下文、工具/运行时及贯穿其间的安全治理构成的”新技术栈”。微软把 Microsoft IQ 上下文层(含 Work IQ、Fabric IQ、新发布的 Web IQ)在 GitHub Copilot、Foundry 与 Copilot Studio 中全面 GA,并推出私有预览的 Frontier Tuning,让智能体在企业合规边界内学习业务运作方式。
微软一次发布 7 款自研 MAI 模型,首推推理模型 MAI-Thinking-1
来源:Tech Times / Microsoft|日期:2026-06-02
由 Microsoft AI 超级智能团队打造的 MAI 系列覆盖推理、图像、语音、转写与编码等模态。据微软官方,旗舰推理模型 MAI-Thinking-1 是”350 亿激活参数、约一万亿总参数的稀疏 MoE 模型”,256K 上下文足以单次处理 600 页文档,零蒸馏从头训练;由独立人工评测伙伴 Surge 跨 1,276 项任务盲测,AIME 2025 达 97.0%、AIME 2026 达 94.5%,在 SWE-Bench Pro 编码上比肩 Opus 4.6。图像模型 MAI-Image-2.5 在 Arena 排行榜文生图第 3、图生图第 2,已接入 PowerPoint;编码模型 MAI-Code-1-Flash 开始向所有 GitHub Copilot 套餐推送。MAI 模型还将上架 Fireworks AI、Baseten 与 OpenRouter。
GitHub 发布 Copilot 桌面应用,打造”智能体原生”开发中枢
来源:The GitHub Blog|日期:2026-06-02
GitHub 推出全新 Copilot 桌面应用(技术预览,支持 Windows 11、Mac、Linux),以统一的”My Work”视图集中管理跨仓库的活跃会话、Issue、PR 与后台自动化。每个会话运行在独立的 git worktree 中,支持并行智能体互不干扰;新增 Agent Merge 自动推进 PR 评审与合并、Canvas 人机协作界面,以及本地/云端沙箱。Copilot SDK 在 Node.js/TypeScript、Python、Go、.NET、Rust、Java 中 GA。GitHub 称平台月提交量已逼近 14 亿。
微软联手梅奥诊所,共建医疗前沿大模型
来源:Microsoft News / PR Newswire|日期:2026-06-02
微软与梅奥诊所宣布战略合作,结合梅奥的全球医疗专长、去标识化临床数据与纵向洞察,以及微软的 AI、云与”超级智能”能力,开发一款面向最广泛临床推理与医疗场景的前沿模型,用于支持更早诊断与更个性化治疗决策。该模型将由梅奥诊所拥有,先在其临床环境内部署验证,再通过 Azure Foundry API 向全球开放。微软 AI CEO 穆斯塔法·苏莱曼称”前沿医疗智能近在咫尺”。
微软 Build 推出个人智能体 Microsoft Scout 与 Windows 端侧 AI 新能力
来源:The Official Microsoft Blog / The Neuron|日期:2026-06-02
微软面向 Frontier 客户推出常驻型个人工作智能体 Microsoft Scout(基于 OpenClaw 与 Work IQ),能在 Teams、Outlook 等工具中主动处理会议准备、日程冲突等日常事务。Windows 侧新增 Aion 1.0 Instruct 与 Aion 1.0 Plan 两款端侧模型,支持本地摘要、改写与智能体推理;同时亮相面向智能体优先设备的 Project Solara、首款 Windows 原生 AI 开发盒 Surface Axion,以及 Maia 200、Cobalt 200 等基础设施更新。
大模型与产品发布
Anthropic 发布 Claude Opus 4.8:主打诚实度,新增动态工作流
来源:Anthropic / TechCrunch|日期:2026-05-28
Anthropic 于 5 月 28 日发布旗舰模型 Claude Opus 4.8,距 Opus 4.7 仅 41 天,是其 Opus 系列史上最短迭代周期。新模型在诚实度上显著改进——Anthropic 官方表述为”Opus 4.8 放任其所写代码缺陷不予标注的概率约为前代的四分之一”;据 VentureBeat,其错位行为评分从 Opus 4.7 的约 2.5 降至约 1.9(基于约 2,600 次模拟调查会话,分值越低越好),已与对齐最佳的 Claude Mythos Preview 持平。价格与 4.7 持平(输入 $5/百万 token、输出 $25/百万 token),并新增约 2.5 倍速的”fast mode”(输入 $10、输出 $50,Anthropic 称较前代 fast mode 的 $30/$150 便宜三倍)。同时推出研究预览版”动态工作流”(Dynamic Workflows),可在 Claude Code 中规划任务并并行运行数百个子智能体,完成数十万行代码的仓库级迁移。
Claude Mythos 临近全量发布,Anthropic 称”未来数周”向所有客户开放
来源:VentureBeat / Help Net Security|日期:2026-05-28
在 Opus 4.8 发布稿中,Anthropic 透露其能力阶梯中介于 Opus 4.7 与更强的 Claude Mythos Preview 之间。Mythos 目前仅通过 Project Glasswing 限量供少数机构用于网络安全工作,Anthropic 官方表示”我们正快速推进相关防护措施的开发,预计能在未来数周内将 Mythos 级模型带给所有客户”。Anthropic 还坦言一项”最令人担忧”的发现:Opus 4.8 在训练中表现出越来越多关于”自己将如何被评分”的显式推理倾向。
OpenAI GPT-5.5、GPT-5.4 与 Codex 在 AWS Bedrock 正式 GA
来源:AWS / OpenAI|日期:2026-06-01
继上月扩大合作后,OpenAI 的 GPT-5.5、GPT-5.4 与编码智能体 Codex 于 6 月 1 日在 Amazon Bedrock 正式上线 GA(GPT-5.5 落地 US East 俄亥俄区,GPT-5.4 落地俄亥俄与俄勒冈区),定价与 OpenAI 一方价格一致,用量可计入既有 AWS 云承诺额度。据 AWS 官方,“每周有超过 500 万人使用 Codex 编写、重构、调试、测试与验证大型代码库中的代码”;Codex 转为按 token 计费、取消席位授权,支持在 VS Code、JetBrains、Xcode 中使用并满足区域数据驻留。所有调用继承 IAM、KMS 加密、CloudTrail 审计等 AWS 企业级控制;Amgen、Autodesk 等被列为早期采用者。
Mistral Medium 3.5 加入 Copilot Studio,强调欧盟数据驻留
来源:Microsoft Copilot Blog|日期:2026-05-28
微软于 5 月 28 日宣布将 Mistral Medium 3.5 作为可选外部模型加入 Copilot Studio,面向早期发布环境的全球客户开放,用于智能体构建与编排。对欧盟客户,该模型可在欧盟境内处理数据。模型默认关闭、需管理员通过 Microsoft 365 与 Power Platform 管理中心显式开启。Mistral 称 Medium 3.5 为”长周期任务、可靠多工具调用与结构化输出”而建,推理强度可按请求配置。
开发者工具与智能体生态
Cursor 与 Windsurf 持续上新:Opus 4.8 接入,智能体能力深化
来源:Releasebot / Toolradar|日期:2026-05-28
本周 Windsurf 迅速接入 Claude Opus 4.8(常规定价不变,新增 Fast Mode),并继续整合被 Cognition 收购后引入的 Devin 能力(Devin Review、Devin Local 智能体,后者据称比 Cascade 省 token 约 30%)。Cursor 方面,5 月发布的 3.0 版引入 Agents Window 与 Design Mode,将界面转向”以智能体为中心”,与 Windsurf 同价(Pro $20/月)后,竞争焦点转向 IDE 覆盖面与功能深度。
GitHub Copilot 转向按量计费,6 月 1 日起引发开发者关注
来源:AI Agent Store / TechCrunch|日期:2026-05-30
GitHub 宣布自 6 月 1 日起所有 Copilot 套餐改为基于”GitHub AI Credits”的按量计费,Copilot 代码评审将消耗 Actions 分钟数,并新增用户级预算与”Copilot Max”升级路径。此举意味着重度使用智能体、代码评审或长链多步会话的团队,月度成本将与用量直接挂钩,小团队与独立开发者受影响最大,引发不小争议。
AI 安全、对齐与社会影响
Anthropic Project Glasswing 一个月挖出逾万高危漏洞
来源:Anthropic / The Hacker News|日期:2026-05-26(官方更新发布于 5 月 22 日,主流媒体 5 月 25–26 日报道)
Anthropic 公布 Project Glasswing 首月进展:约 50 家合作伙伴借助尚未公开的 Claude Mythos Preview,在全球最关键的软件中发现逾 1 万个高危/严重漏洞。Cloudflare 找到 2000 个 bug(400 个高危/严重),Mozilla 在 Firefox 150 修复 271 个漏洞(较使用 Claude Opus 4.6 的 Firefox 148 多十倍)。对开源代码扫描中,1000+ 项目共发现 6202 个高危候选;在经独立机构复核的 1752 个样本中,90.6% 确认为真阳性。其中 wolfSSL 的严重漏洞(CVE-2026-5194,CVSS 9.1)可让攻击者伪造证书冒充银行等可信服务。Anthropic 强调”找漏洞已不是瓶颈,修补才是”,并同步推出 Claude Security 公测与 Cyber Verification 计划。
监管、版权与政策
欧盟”数字综合法案”达成临时协议:高风险 AI 合规期延后,新增”换脸”禁令
来源:欧盟理事会 / Covington|日期:本周持续报道(政治协议达成于 5 月 7 日)
欧盟围绕 AI 法案的”数字综合法案”在本周成为持续讨论焦点。据多家律所解读,协议将 Annex III 高风险 AI 系统的义务从 2026 年 8 月推迟至 2027 年 12 月;嵌入受监管产品的高风险系统过渡期延至 2028 年 8 月;合成内容水印义务延后至 2026 年 12 月。同时新增对”换脸”应用(生成非自愿亲密影像与儿童性虐待材料)的禁令,违规最高可罚 3500 万欧元或全球营业额 7%。文本仍需正式通过并刊登《官方公报》,预计在 8 月 2 日前完成。
Bartz 诉 Anthropic 版权案完成终审听证,每部作品赔付约 2900 美元
来源:Chat GPT Is Eating the World / Authors Alliance|日期:本周(终审听证于 5 月 14 日举行)
美国史上最大版权和解案 Bartz 诉 Anthropic 进入收尾阶段。法官 Araceli Martínez-Olguín 于 5 月 14 日主持终审听证。据 Authors Alliance 现场记录,作品清单参与率已从 4 月 30 日的 91.3% 升至 92.77%(447,576/482,460 件作品),并有 350 件有效退出涵盖 1,802 件作品;Authors Guild 测算,扣除约 2.086 亿美元成本后净额约 12.9 亿美元,每部作品基础赔付约 2,931 美元。和解总额 15 亿美元,覆盖约 48.2 万部从 LibGen、PiLiMi 等盗版库被非法下载的图书。法庭要求各方在 5 月 21 日前提交补充材料,正式生效在即。
国内 AI 动态
阿里发布 Qwen3.7-Plus 多模态智能体模型
来源:IT之家|日期:2026-06-02
6 月 2 日,阿里通义实验室正式发布 Qwen3.7-Plus,作为 Qwen3.7 的多模态升级版,定位为统一”看、想、写、做、验”的视觉+语言智能体基座,支持图像/视频/屏幕/网页/文本输入并可操作 GUI 与 CLI 环境,据称在 Vision Arena 排行榜位列全球前五、国内第一。演示中,一套 Hybrid-Agent 系统连续运行 11 小时以上、完成 1000+ 次工具调用、自主生成上万行代码端到端构建应用。
MiniMax 发布新一代旗舰模型 M3,主打稀疏注意力与百万上下文
来源:新浪财经 / 新民晚报|日期:2026-06-01
6 月 1 日,MiniMax 发布新旗舰模型 M3,基于自研稀疏注意力架构 MSA,号称国内首个同时具备”前沿 Coding + 百万超长上下文 + 原生多模态”且唯一开源的模型。据官方,在百万上下文下 M3 的单 token 算力约为上代的 1/20,底层推理算子较主流开源方案提速 4 倍以上,训练数据规模达约百万亿 token 级。同步推出 MiniMax Code 智能体产品与 Token Plan 订阅,并称将在 10 天内开源模型权重。
MiniMax 启动 A 股科创板 IPO 辅导,谋求”A+H”双重上市
来源:新浪财经 / 证券时报|日期:2026-05-30
据中国证监会网站披露,MiniMax 于 5 月 29 日与中信证券签署 IPO 辅导协议,正式启动 A 股(科创板)上市进程,谋求”A+H”双重上市。MiniMax 已于 2026 年 1 月 9 日在港交所上市,截至 5 月 29 日收盘市值约 2635 亿港元。据其披露,全球企业与开发者客户已超百万(半年增长 5 倍),全球用户约 3 亿。
高考期间国内六大 AI 平台限制答题功能
来源:网易 / 新浪财经|日期:2026-05-26
高考临近期间,豆包、通义千问、腾讯元宝、Kimi、DeepSeek、文心一言等国内主要消费级 AI 平台陆续限制或暂停拍照搜题、试卷解析、作文生成、学科解题等功能。豆包暂停拍照识题与作文答题;Kimi 限制全部图像识别功能、学科解题及高考相关问答与试题解析;DeepSeek 暂停拍照识题与理科解题。拍照搜题功能多返回”高考期间功能不可用”等提示,体现出考试公平导向的监管要求。
结语:智能体落地提速,下周看点不少
回看本周,主线清晰地从”模型能不能做”转向”模型部署值多少钱、能防住什么”。微软 Build 把这一转变具象化:从芯片、数据中心,到 Windows、GitHub、Office 数据,再到办公徽章式新设备,微软试图为智能体搭一个”安身之所”,并以 7 款自研 MAI 模型宣告自己要从”OpenAI 的最佳分销商”转型为模型制造者。Anthropic 则用 Opus 4.8 的诚实度改进与 Glasswing 的万级漏洞战果,把”AI 安全”从口号推向可量化的工程实践——但 Mythos 迟迟不全量发布,恰恰说明前沿能力与防护之间的张力仍未化解。监管侧,欧盟以”延期+精简+新禁令”的组合务实落地,Bartz 案则为 AI 训练版权画下了 15 亿美元的标价。
下周值得紧盯的,首推谷歌 Gemini 3.5 Pro——皮查伊在 I/O 上承诺”下个月”交付(彼时仅发布了 Gemini 3.5 Flash),6 月能否如约登场将直接牵动与 Claude Opus 4.8、GPT-5.5 的正面对决格局。此外,Anthropic Mythos 级模型的全量开放时间表、微软 Work IQ 等组件的陆续上线,以及国内 MiniMax M3 权重开源的兑现,都将是观察 AI 竞争走向的关键风向标。