Tools

2026 年 6 月开源权重大模型横评：Nemotron 3 Ultra、MiniMax M3、Kimi K2.6 怎么选

4 min read · Jun 3, 2026

💡 一句话总结：一周之内 Nemotron 3 Ultra 与 MiniMax M3 接连开源，开源权重模型集体逼近闭源前沿。这篇横评帮你在五款主力里，按「自部署还是 API」「编码、通用还是长上下文」选对那一个。

一、为什么是现在：开源的高光一周

2026 年 6 月初这一周，开源权重阵营连放大招：

6 月 1 日，NVIDIA 在 Computex 由黄仁勋亲自发布 Nemotron 3 Ultra——550B 总参数（约 55B 激活）的 MoE，号称最强的美国开源权重模型，6 月 4 日上 HuggingFace 与 OpenRouter；
同一天，上海 MiniMax 开源 M3，主打 1M 上下文、MSA 稀疏注意力与原生多模态，定位前沿编码与 agentic；
而 Moonshot 的 Kimi K2.6 自 4 月发布以来，仍以约 54 分的 Artificial Analysis 智能指数稳居开源榜首。

一句话：开源权重正从「能用」逼近「好用」，与闭源前沿的差距从一个代际缩到了半个代际。下面逐项横评。

二、参数与架构横评

模型	厂商	架构	总参/激活	上下文	License 取向
Nemotron 3 Ultra	NVIDIA	MoE	550B / ~55B	长上下文	开放权重
Nemotron 3 Super	NVIDIA	MoE	~120B / ~12B	1M	开放权重
MiniMax M3	MiniMax	MoE + MSA 稀疏注意力	大总参 / 小激活	1M	开放权重
Kimi K2.6	Moonshot	MoE	1T / 32B	256K	Modified MIT
GLM 5.1	Z AI（智谱）	MoE	大总参 / 小激活	200K	开放权重
Qwen3 系列	阿里	稠密 / MoE 多档	含 27B 稠密档	最高 262K	多为 Apache 2.0

架构上能看出清晰的分工：MoE（大总参、小激活）是冲规模的主流，让 550B、1T 这种量级在推理时只激活一小部分；稀疏注意力（M3 的 MSA）是冲长上下文的关键，把 1M token 的注意力压到接近线性；稠密小模型（Qwen3 的中尺寸档）守住易部署的生态位，单卡可跑、Apache 2.0 许可最宽松。

三、能力与成本横评

⚠️ 说明：以下智能指数引用 Artificial Analysis 的公开排名；编码与速度部分含厂商发布数据，已注明。独立的第三方复测仍在进行，数字会随评测更新。

综合智能：Kimi K2.6 约 54 分，目前开源最高；Nemotron 3 Ultra 约 48 分，美国开源最强但落后于 Kimi。MiniMax M3、GLM 5.1 的官方跑分亮眼但部分尚未独立验证。
编码 / agentic：MiniMax M3 主打前沿编码与 agentic，叠加 1M 上下文对「整库理解」有结构性优势；GLM 5.1 在真实编码工作流里口碑稳；Qwen3 的 27B 档在 SWE-Bench Verified 上取得 77+ 的高分，对其尺寸而言性价比极高。
速度：Nemotron 3 Ultra 官方称 300+ tokens/s；Nemotron 3 Super 官方称比 GLM-4.7、Kimi-K2 快约 6 倍——速度是 NVIDIA 系的主打卖点，毕竟推理栈是它的主场。
成本：国产模型普遍更激进。Kimi K2.6 单 token 价更低，输入价尤其便宜（对大量灌上下文的编码场景很关键）；MiniMax M3 官方称 API 成本为同档闭源的 5%–10%。

四、分场景选型建议

横评的意义在于落到「我该选哪个」。按约束给三套组合：

场景一：要最强能力、走 API、不折腾运维。 首选 Kimi K2.6（综合智能开源最高）或直接上 Nemotron 3 Ultra 的 OpenRouter 端点。两者都免去自部署，按量付费。需要超长上下文则换 MiniMax M3。

场景二：编码助手 / agentic 工作流。 吞吐和成本敏感选 Kimi K2.6（输入便宜）；需要把整个代码库塞进上下文做跨文件推理选 MiniMax M3（1M + MSA）；要稳妥的日常编码体验，GLM 5.1 是口碑之选。

场景三：私有化自部署、硬件有限。 别碰 550B/1T 的大家伙。选 Qwen3 的中等稠密档（27B 级，Apache 2.0，单卡可跑，编码分高），或 Nemotron 3 Super（120B/12B 激活，1M 上下文，对硬件比 Ultra 友好得多）。预算再紧就上量化版。

场景四：长上下文是硬需求（整库代码、长文档、长程 agent）。 MiniMax M3 与 Nemotron 3 Super 都给到 1M 上下文，是这一档的两个主力。M3 偏编码/多模态，Super 偏速度，按你的主任务挑。

五、一个更大的判断：中美开源同台竞速

把这一周放进更长的时间线，最值得记下的不是某个具体跑分，而是格局：美国这边有 NVIDIA 的 Nemotron 系列扛旗，中国这边 MiniMax、Moonshot、智谱、阿里多线齐发，且国产模型在性价比上集体激进。开源最强已经能在多数基准上贴着一线闭源跑。

对开发者，这是好消息中的好消息：可选项越来越多、价格越来越低、私有化越来越可行。选型的难度从「有没有能用的开源模型」，变成了「在一堆都不错的里面，按我的约束挑最合适的那个」。这篇横评的目的，就是帮你把这道选择题做对——而不是被发布会的跑分牵着走。

Frequently asked questions

「开源」和「开放权重」到底有什么区别？这篇说的是哪种？: 严格意义上，开源（open-source）指同时公开权重、训练代码和数据集，理论上可完全复现；开放权重（open-weight）只公开权重供下载和自部署，训练代码和数据可能不公开。本文横评的这几款——Nemotron 3 Ultra、MiniMax M3、Kimi K2.6、GLM 5.1、Qwen3——绝大多数是开放权重模型。对使用者而言，能下载、能自部署、能私有化，是它们相对闭源 API 的核心价值；是否完全可复现，多数团队其实不那么在意。选型时真正要看的是 LICENSE 里的商用条款。
Nemotron 3 Ultra 这么大（550B），普通团队用得起吗？: 全精度自部署需要多卡 H100/H200 级别，确实不是中小团队能轻易扛的。但它是 MoE 架构（550B 总参数、约 55B 激活），激活参数小意味着推理算力需求远低于稠密的 550B；配合 FP8/INT4 量化，显存门槛能显著下降。更现实的路径是走 API——它同步上线了 OpenRouter，按量付费，不必自己运维。如果一定要本地化，可以关注同系列的 Nemotron 3 Super（约 120B 总参/12B 激活、1M 上下文），它对硬件友好得多。
编码场景到底选哪个？: 看约束。要最强且不在乎成本，闭源前沿仍有优势，但开源里 Kimi K2.6 综合智能最高、MiniMax M3 主打前沿编码与 agentic 且有 1M 上下文优势，GLM 5.1 在编码实用性上口碑稳。要性价比和高吞吐，Kimi K2.6 单 token 成本更低（输入价尤其便宜），适合需要大量灌上下文的编码工作流。要轻量自部署，Qwen3 的中等尺寸稠密模型（如 27B 档、Apache 2.0、SWE-Bench Verified 高分）单卡可跑、许可宽松，是私有化编码助手的务实之选。
智能指数（Intelligence Index）这种综合分能直接信吗？: 可以当粗筛，不能当结论。Artificial Analysis 的 Intelligence Index 把多个基准聚合成一个分，方便快速横比趋势——比如 Kimi K2.6 的 54 高于 Nemotron 3 Ultra 的 48，能说明前者综合更强。但综合分会掩盖任务差异：你的场景如果是长上下文检索、特定语言编码、或 agentic 工具链，单一综合分未必反映真实表现。正确用法是用它筛掉明显落后的，再拿你自己的真实任务集做小样本回归。厂商自报的跑分尤其要打折看。
这一周开源模型集体爆发，说明了什么趋势？: 三个信号。一是开源权重与闭源前沿的差距在持续收窄——开源最强已能在多数基准上接近一线闭源，差距从「代际」缩到「半代」。二是中美开源同台竞速：美国有 NVIDIA 的 Nemotron 系列扛旗，中国有 MiniMax、Moonshot（Kimi）、智谱（GLM）、阿里（Qwen）多线齐发，且国产模型在性价比上普遍激进。三是架构分化：MoE（大总参小激活）成为冲规模的主流，稀疏注意力（如 M3 的 MSA）成为冲长上下文的关键，稠密小模型则守住易部署的生态位。

// next.txt ›

One signal per week. No AI filler.

🛠️ Work With Me

AI engineering, hands-on

Architecture review, RAG audit, build sprints.

Reach senior AI engineers

Newsletter slots, sponsored deep-dives.

Some outbound links in this post are affiliate links — see disclosure.