Tools

2026 年 6 月开源权重大模型横评:Nemotron 3 Ultra、MiniMax M3、Kimi K2.6 怎么选

4 min read ·

💡 一句话总结:一周之内 Nemotron 3 Ultra 与 MiniMax M3 接连开源,开源权重模型集体逼近闭源前沿。这篇横评帮你在五款主力里,按「自部署还是 API」「编码、通用还是长上下文」选对那一个。

一、为什么是现在:开源的高光一周

2026 年 6 月初这一周,开源权重阵营连放大招:

一句话:开源权重正从「能用」逼近「好用」,与闭源前沿的差距从一个代际缩到了半个代际。下面逐项横评。

二、参数与架构横评

模型厂商架构总参/激活上下文License 取向
Nemotron 3 UltraNVIDIAMoE550B / ~55B长上下文开放权重
Nemotron 3 SuperNVIDIAMoE~120B / ~12B1M开放权重
MiniMax M3MiniMaxMoE + MSA 稀疏注意力大总参 / 小激活1M开放权重
Kimi K2.6MoonshotMoE1T / 32B256KModified MIT
GLM 5.1Z AI(智谱)MoE大总参 / 小激活200K开放权重
Qwen3 系列阿里稠密 / MoE 多档含 27B 稠密档最高 262K多为 Apache 2.0

架构上能看出清晰的分工:MoE(大总参、小激活)是冲规模的主流,让 550B、1T 这种量级在推理时只激活一小部分;稀疏注意力(M3 的 MSA)是冲长上下文的关键,把 1M token 的注意力压到接近线性;稠密小模型(Qwen3 的中尺寸档)守住易部署的生态位,单卡可跑、Apache 2.0 许可最宽松。

三、能力与成本横评

⚠️ 说明:以下智能指数引用 Artificial Analysis 的公开排名;编码与速度部分含厂商发布数据,已注明。独立的第三方复测仍在进行,数字会随评测更新。

四、分场景选型建议

横评的意义在于落到「我该选哪个」。按约束给三套组合:

场景一:要最强能力、走 API、不折腾运维。 首选 Kimi K2.6(综合智能开源最高)或直接上 Nemotron 3 Ultra 的 OpenRouter 端点。两者都免去自部署,按量付费。需要超长上下文则换 MiniMax M3。

场景二:编码助手 / agentic 工作流。 吞吐和成本敏感选 Kimi K2.6(输入便宜);需要把整个代码库塞进上下文做跨文件推理选 MiniMax M3(1M + MSA);要稳妥的日常编码体验,GLM 5.1 是口碑之选。

场景三:私有化自部署、硬件有限。 别碰 550B/1T 的大家伙。选 Qwen3 的中等稠密档(27B 级,Apache 2.0,单卡可跑,编码分高),或 Nemotron 3 Super(120B/12B 激活,1M 上下文,对硬件比 Ultra 友好得多)。预算再紧就上量化版。

场景四:长上下文是硬需求(整库代码、长文档、长程 agent)。 MiniMax M3 与 Nemotron 3 Super 都给到 1M 上下文,是这一档的两个主力。M3 偏编码/多模态,Super 偏速度,按你的主任务挑。

五、一个更大的判断:中美开源同台竞速

把这一周放进更长的时间线,最值得记下的不是某个具体跑分,而是格局:美国这边有 NVIDIA 的 Nemotron 系列扛旗,中国这边 MiniMax、Moonshot、智谱、阿里多线齐发,且国产模型在性价比上集体激进。开源最强已经能在多数基准上贴着一线闭源跑。

对开发者,这是好消息中的好消息:可选项越来越多、价格越来越低、私有化越来越可行。选型的难度从「有没有能用的开源模型」,变成了「在一堆都不错的里面,按我的约束挑最合适的那个」。这篇横评的目的,就是帮你把这道选择题做对——而不是被发布会的跑分牵着走。

Frequently asked questions

「开源」和「开放权重」到底有什么区别?这篇说的是哪种?
严格意义上,开源(open-source)指同时公开权重、训练代码和数据集,理论上可完全复现;开放权重(open-weight)只公开权重供下载和自部署,训练代码和数据可能不公开。本文横评的这几款——Nemotron 3 Ultra、MiniMax M3、Kimi K2.6、GLM 5.1、Qwen3——绝大多数是开放权重模型。对使用者而言,能下载、能自部署、能私有化,是它们相对闭源 API 的核心价值;是否完全可复现,多数团队其实不那么在意。选型时真正要看的是 LICENSE 里的商用条款。
Nemotron 3 Ultra 这么大(550B),普通团队用得起吗?
全精度自部署需要多卡 H100/H200 级别,确实不是中小团队能轻易扛的。但它是 MoE 架构(550B 总参数、约 55B 激活),激活参数小意味着推理算力需求远低于稠密的 550B;配合 FP8/INT4 量化,显存门槛能显著下降。更现实的路径是走 API——它同步上线了 OpenRouter,按量付费,不必自己运维。如果一定要本地化,可以关注同系列的 Nemotron 3 Super(约 120B 总参/12B 激活、1M 上下文),它对硬件友好得多。
编码场景到底选哪个?
看约束。要最强且不在乎成本,闭源前沿仍有优势,但开源里 Kimi K2.6 综合智能最高、MiniMax M3 主打前沿编码与 agentic 且有 1M 上下文优势,GLM 5.1 在编码实用性上口碑稳。要性价比和高吞吐,Kimi K2.6 单 token 成本更低(输入价尤其便宜),适合需要大量灌上下文的编码工作流。要轻量自部署,Qwen3 的中等尺寸稠密模型(如 27B 档、Apache 2.0、SWE-Bench Verified 高分)单卡可跑、许可宽松,是私有化编码助手的务实之选。
智能指数(Intelligence Index)这种综合分能直接信吗?
可以当粗筛,不能当结论。Artificial Analysis 的 Intelligence Index 把多个基准聚合成一个分,方便快速横比趋势——比如 Kimi K2.6 的 54 高于 Nemotron 3 Ultra 的 48,能说明前者综合更强。但综合分会掩盖任务差异:你的场景如果是长上下文检索、特定语言编码、或 agentic 工具链,单一综合分未必反映真实表现。正确用法是用它筛掉明显落后的,再拿你自己的真实任务集做小样本回归。厂商自报的跑分尤其要打折看。
这一周开源模型集体爆发,说明了什么趋势?
三个信号。一是开源权重与闭源前沿的差距在持续收窄——开源最强已能在多数基准上接近一线闭源,差距从「代际」缩到「半代」。二是中美开源同台竞速:美国有 NVIDIA 的 Nemotron 系列扛旗,中国有 MiniMax、Moonshot(Kimi)、智谱(GLM)、阿里(Qwen)多线齐发,且国产模型在性价比上普遍激进。三是架构分化:MoE(大总参小激活)成为冲规模的主流,稀疏注意力(如 M3 的 MSA)成为冲长上下文的关键,稠密小模型则守住易部署的生态位。
// next.txt ›

Some outbound links in this post are affiliate links — see disclosure.