💡 一句话总结:一周之内 Nemotron 3 Ultra 与 MiniMax M3 接连开源,开源权重模型集体逼近闭源前沿。这篇横评帮你在五款主力里,按「自部署还是 API」「编码、通用还是长上下文」选对那一个。
一、为什么是现在:开源的高光一周
2026 年 6 月初这一周,开源权重阵营连放大招:
- 6 月 1 日,NVIDIA 在 Computex 由黄仁勋亲自发布 Nemotron 3 Ultra——550B 总参数(约 55B 激活)的 MoE,号称最强的美国开源权重模型,6 月 4 日上 HuggingFace 与 OpenRouter;
- 同一天,上海 MiniMax 开源 M3,主打 1M 上下文、MSA 稀疏注意力与原生多模态,定位前沿编码与 agentic;
- 而 Moonshot 的 Kimi K2.6 自 4 月发布以来,仍以约 54 分的 Artificial Analysis 智能指数稳居开源榜首。
一句话:开源权重正从「能用」逼近「好用」,与闭源前沿的差距从一个代际缩到了半个代际。下面逐项横评。
二、参数与架构横评
| 模型 | 厂商 | 架构 | 总参/激活 | 上下文 | License 取向 |
|---|---|---|---|---|---|
| Nemotron 3 Ultra | NVIDIA | MoE | 550B / ~55B | 长上下文 | 开放权重 |
| Nemotron 3 Super | NVIDIA | MoE | ~120B / ~12B | 1M | 开放权重 |
| MiniMax M3 | MiniMax | MoE + MSA 稀疏注意力 | 大总参 / 小激活 | 1M | 开放权重 |
| Kimi K2.6 | Moonshot | MoE | 1T / 32B | 256K | Modified MIT |
| GLM 5.1 | Z AI(智谱) | MoE | 大总参 / 小激活 | 200K | 开放权重 |
| Qwen3 系列 | 阿里 | 稠密 / MoE 多档 | 含 27B 稠密档 | 最高 262K | 多为 Apache 2.0 |
架构上能看出清晰的分工:MoE(大总参、小激活)是冲规模的主流,让 550B、1T 这种量级在推理时只激活一小部分;稀疏注意力(M3 的 MSA)是冲长上下文的关键,把 1M token 的注意力压到接近线性;稠密小模型(Qwen3 的中尺寸档)守住易部署的生态位,单卡可跑、Apache 2.0 许可最宽松。
三、能力与成本横评
⚠️ 说明:以下智能指数引用 Artificial Analysis 的公开排名;编码与速度部分含厂商发布数据,已注明。独立的第三方复测仍在进行,数字会随评测更新。
- 综合智能:Kimi K2.6 约 54 分,目前开源最高;Nemotron 3 Ultra 约 48 分,美国开源最强但落后于 Kimi。MiniMax M3、GLM 5.1 的官方跑分亮眼但部分尚未独立验证。
- 编码 / agentic:MiniMax M3 主打前沿编码与 agentic,叠加 1M 上下文对「整库理解」有结构性优势;GLM 5.1 在真实编码工作流里口碑稳;Qwen3 的 27B 档在 SWE-Bench Verified 上取得 77+ 的高分,对其尺寸而言性价比极高。
- 速度:Nemotron 3 Ultra 官方称 300+ tokens/s;Nemotron 3 Super 官方称比 GLM-4.7、Kimi-K2 快约 6 倍——速度是 NVIDIA 系的主打卖点,毕竟推理栈是它的主场。
- 成本:国产模型普遍更激进。Kimi K2.6 单 token 价更低,输入价尤其便宜(对大量灌上下文的编码场景很关键);MiniMax M3 官方称 API 成本为同档闭源的 5%–10%。
四、分场景选型建议
横评的意义在于落到「我该选哪个」。按约束给三套组合:
场景一:要最强能力、走 API、不折腾运维。 首选 Kimi K2.6(综合智能开源最高)或直接上 Nemotron 3 Ultra 的 OpenRouter 端点。两者都免去自部署,按量付费。需要超长上下文则换 MiniMax M3。
场景二:编码助手 / agentic 工作流。 吞吐和成本敏感选 Kimi K2.6(输入便宜);需要把整个代码库塞进上下文做跨文件推理选 MiniMax M3(1M + MSA);要稳妥的日常编码体验,GLM 5.1 是口碑之选。
场景三:私有化自部署、硬件有限。 别碰 550B/1T 的大家伙。选 Qwen3 的中等稠密档(27B 级,Apache 2.0,单卡可跑,编码分高),或 Nemotron 3 Super(120B/12B 激活,1M 上下文,对硬件比 Ultra 友好得多)。预算再紧就上量化版。
场景四:长上下文是硬需求(整库代码、长文档、长程 agent)。 MiniMax M3 与 Nemotron 3 Super 都给到 1M 上下文,是这一档的两个主力。M3 偏编码/多模态,Super 偏速度,按你的主任务挑。
五、一个更大的判断:中美开源同台竞速
把这一周放进更长的时间线,最值得记下的不是某个具体跑分,而是格局:美国这边有 NVIDIA 的 Nemotron 系列扛旗,中国这边 MiniMax、Moonshot、智谱、阿里多线齐发,且国产模型在性价比上集体激进。开源最强已经能在多数基准上贴着一线闭源跑。
对开发者,这是好消息中的好消息:可选项越来越多、价格越来越低、私有化越来越可行。选型的难度从「有没有能用的开源模型」,变成了「在一堆都不错的里面,按我的约束挑最合适的那个」。这篇横评的目的,就是帮你把这道选择题做对——而不是被发布会的跑分牵着走。