前沿模型的差距正在收窄——这才是最大的新闻
2024 年的 LLM 选型很简单:GPT-4 能做大部分事,Claude 写东西好一点,Gemini 便宜一点。三句话就说完了。
2026 年春季的局面完全不同。三家前沿模型在大多数基准上的差距已经收窄到 5 个百分点以内。这意味着 “用哪个模型”不再是一个技术问题,而是一个工程经济学问题——选错模型不会让你的系统完全失败,但会让你多花 3-10 倍的钱,或者在某个关键维度上吃亏。
这篇文章基于公开基准数据和我用三个模型重写同一个 TypeScript 模块的实测经验,给出一个尽可能客观的 2026 春季 LLM 横评。我会覆盖 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 三个主角,以及 Grok 4 和 DeepSeek V4 两个重要配角。
为什么基准测试在 2026 年变得更重要也更不可靠
更重要:因为差距在收窄
当 GPT-4 领先第二名 20 个百分点时,你不需要看基准——直接用 GPT-4 就行。但当三个模型在 MMLU-Pro 上的得分分别是 78%、76%、75% 时,你需要深入到具体任务级别去做选择。基准测试是唯一可量化的比较手段。
更不可靠:因为厂商在 game benchmarks
几个让基准变得不可靠的趋势:
-
Cherry-picking evaluation conditions。厂商会选对自己最有利的 prompt 格式、few-shot 数量、temperature 设置来跑基准。同一个模型在不同评测条件下可以差 5-10 个百分点。
-
训练数据泄漏风险。部分基准(尤其是 MMLU、HumanEval 原版)的测试题已经被大量讨论,很难排除模型在训练时见过类似的题目。这就是为什么 MMLU-Pro、HumanEval+、SWE-bench Verified 这些”加强版”基准越来越重要。
-
基准和真实任务的脱节。一个模型在 HumanEval 上拿 98% 不代表它能在真实项目中写出好代码。HumanEval 考的是独立函数级别的代码生成,而真实项目需要理解上下文、处理依赖、遵循代码风格。
我关注的基准
基于以上考虑,我在这次横评中重点看以下基准:
| 基准 | 测量什么 | 为什么可信 |
|---|---|---|
| SWE-bench Verified | 真实 GitHub issue 修复 | 需要理解整个 repo,最接近真实编码 |
| Terminal-Bench 2.0 | 终端环境下的 agentic 任务 | 测试长时间自主执行能力 |
| HumanEval+ | 函数级代码生成 | HumanEval 的加强版,增加了 edge case 测试 |
| MMLU-Pro | 多领域知识推理 | 比 MMLU 更难,10 选 1 变成了 open-ended |
| Humanity’s Last Exam (HLE) | 专家级跨学科推理 | 由人类专家出题,目前最难的综合基准 |
| Long Context (200K+) | 长文档理解和检索 | 对 RAG 和文档处理场景关键 |
弱化或忽略的基准:MMLU 原版(太简单,已饱和)、GSM8K(数学推理已饱和)、Arena ELO(主观性太强)。
核心数据:三大模型 + 两个配角
以下数据综合了厂商自报和第三方评测(BenchLM、Artificial Analysis、Chatbot Arena),截至 2026 年 5 月:
| 维度 | Claude Opus 4.6 | GPT-5.4 | Gemini 3.1 Pro | Grok 4 | DeepSeek V4 |
|---|---|---|---|---|---|
| SWE-bench Verified | 81.4% | 73.8% | 68.2% | 75.1% | 71.6% |
| Terminal-Bench 2.0 | 65.4% | 58.7% | 52.3% | 61.2% | 49.8% |
| HumanEval+ | 93.2% | 95.1% | 91.7% | 92.8% | 90.4% |
| MMLU-Pro | 78.3% | 79.1% | 76.8% | 74.5% | 75.2% |
| HLE (w/ tools) | 36.8% | 52.1% | 44.7% | 38.5% | 33.6% |
| Long Context (1M) | 原生支持 | 256K (扩展) | 原生 1M | 256K | 128K |
| OSWorld | 72.7% | 65.3% | 58.1% | 63.8% | 52.4% |
| Chatbot Arena ELO | 1398 | 1410 | 1372 | 1385 | 1356 |
| Throughput (tok/s) | ~80 | ~90 | ~130 | ~85 | ~110 |
| 价格 $/M input | $3.00 | $2.50 | $2.00 | $3.00 | $0.40 |
| 价格 $/M output | $15.00 | $20.00 | $8.00 | $15.00 | $1.80 |
几个关键观察:
Claude Opus 4.6 在编码任务上有绝对优势。 SWE-bench 81.4% 和 Terminal-Bench 65.4% 都是断层第一。如果你在做 coding agent 或自动化代码修改,这个差距是决定性的。它也是第一个原生支持 1M 上下文的 Opus 级模型。
GPT-5.4 是最均衡的全能选手。 MMLU-Pro、HLE、Chatbot Arena 三个维度都是第一或接近第一。HLE 52.1% 尤其值得注意——这是目前最难的综合推理基准,GPT-5.4 领先第二名(Gemini 3.1 Pro 44.7%)接近 8 个百分点。
Gemini 3.1 Pro 的长上下文 + 性价比组合无可匹敌。 原生 1M 上下文窗口,输入价格 $2/M,吞吐量 ~130 tok/s。如果你的场景是处理长文档或者需要高吞吐量的批量推理,Gemini 的成本优势非常明显。
DeepSeek V4 是开源领域的颠覆者。 多个基准接近 GPT-5.4 水平,但价格只有 1/6 到 1/8。如果你需要私有化部署或者成本是第一优先级,DeepSeek V4 是无可争议的选择。
分项冠军:按任务选模型
编码能力:Claude Opus 4.6
没有悬念。SWE-bench 81.4% 意味着这个模型可以在不借助人类的情况下修复约 80% 的真实 GitHub issue。而 Terminal-Bench 2.0 的 65.4% 和 OSWorld 的 72.7% 说明它不仅会写代码,还会在终端环境中自主执行多步骤任务——这对 coding agent 至关重要。
我的实测也验证了这一点(后面会详细说)。Claude Opus 4.6 在理解大型代码库的上下文方面有明显优势,生成的代码更”像人写的”,而不是教科书式的模板代码。
一个细节:Claude 的 1M 上下文窗口对 coding 场景特别有价值。你可以把整个 repo 的关键文件塞进去,让它在完整上下文下做代码修改,而不是只看局部文件。
推理能力:GPT-5.4
HLE 52.1% 是一个惊人的数字。Humanity’s Last Exam 是由人类各领域专家出题的综合基准,涵盖数学、物理、哲学、法律等多个学科。GPT-5.4 在这个最难的推理基准上领先明显,说明 OpenAI 在推理能力上的投入产出了成果。
MMLU-Pro 79.1% 也是最高的,虽然和 Claude 的 78.3% 差距很小。但 HLE 的差距(52.1% vs 36.8%)说明在真正困难的推理任务上,GPT-5.4 有更深的”思考”能力。
创意写作:Claude Opus 4.6
这个比较难用基准量化,但 Chatbot Arena 的人类偏好排名和多个第三方评测(如 MindStudio 的创意写作测试)一致显示:Claude 在自然语言表达、散文质量、语气把控上仍然是最好的。GPT-5.4 在 Arena ELO 上略高(1410 vs 1398),但 Arena 偏好受到很多因素影响(格式、排版、emoji 使用等),不完全反映写作质量。
我个人的经验是:如果你需要模型写面向人类读者的内容(博客、邮件、报告),Claude 的输出几乎不需要编辑。GPT-5.4 的输出有时候过于”正确”,缺少个性。
长上下文处理:Gemini 3.1 Pro
原生 1M token 的上下文窗口,加上 $2/M 的输入价格——这个组合让 Gemini 3.1 Pro 在文档处理场景中几乎没有对手。Claude Opus 4.6 也支持 1M 上下文,但输入价格是 $3/M,贵 50%。
在 CorpusQA 这类长上下文基准上,Gemini 3.1 Pro 的表现也领先。如果你的应用需要处理整本书、大型代码库、或长篇法律文档,Gemini 是首选。
性价比之王:DeepSeek V4
$0.40/M 输入、$1.80/M 输出,同时在多个基准上接近 GPT-5.4 水平。这个性价比让 DeepSeek V4 成为高并发、成本敏感场景的不二之选。
但需要注意:DeepSeek V4 在 agentic 任务(Terminal-Bench、OSWorld)上的表现和前三名有明显差距。如果你的场景需要模型自主执行多步骤任务,DeepSeek 还不够成熟。
真实项目实测:同一个模块,三个模型
基准测试再详细也是合成数据。我做了一个更接近真实场景的测试:用三个模型分别重写同一个 ~500 行的 TypeScript 模块——一个用于解析和验证 API 请求的中间件,包含类型定义、验证逻辑、错误处理和单元测试。
测试设置
- 原始模块:523 行 TypeScript,10 个函数,47 个单元测试
- 任务:重构为更清晰的架构,添加 Zod schema 验证,提升类型安全
- Prompt:完全相同,包含完整的原始代码、需求描述和代码风格指南
- 模型:Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro
- 评估标准:编译是否通过、测试是否通过、代码质量(主观)、总 token 消耗
结果
| 维度 | Claude Opus 4.6 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|
| 编译通过 | 首次即通过 | 首次即通过 | 2 个类型错误,修复后通过 |
| 测试通过 | 47/47 | 45/47 | 43/47 |
| 新增测试 | +12 个 edge case | +8 个 | +5 个 |
| 代码行数 | 498 行 | 537 行 | 512 行 |
| Zod schema 设计 | 精确,用了 discriminated union | 正确但略冗余 | 基本正确,少用高级特性 |
| 架构改动 | 拆分成 3 个文件,职责清晰 | 保持单文件,内部分模块 | 拆分成 2 个文件 |
| 错误处理 | 自定义 error class + cause chain | 标准 Error + message | 自定义 error class |
| 总 token 消耗 | ~18K output | ~22K output | ~20K output |
| 实际成本 | $0.27 | $0.44 | $0.16 |
| 首次响应时间 | ~45s | ~38s | ~28s |
我的观察
Claude Opus 4.6 的输出质量最高。代码风格最接近”一个经验丰富的 TypeScript 工程师会写的样子”——用了 discriminated union 来处理不同类型的验证错误,主动把大文件拆成了合理的模块,还自己加了 12 个 edge case 的测试用例。唯一的缺点是生成速度最慢。
GPT-5.4 的输出”最安全”。代码正确、规范,但比较保守——倾向于保持原有架构,不做大的改动。两个测试失败是因为它对一个 edge case 的处理和原始实现不一致(可以说是 bug 也可以说是设计选择)。它的 token 消耗最高,因为生成了比较多的注释和文档。
Gemini 3.1 Pro 的速度最快、成本最低,但在类型安全上有两个小问题:少了一个 readonly 修饰符导致编译警告,以及一个泛型约束写得不够严格。4 个测试失败主要是因为它对 Zod 的 .refine() API 用法有误。但如果算上成本——$0.16 vs Claude 的 $0.27——它的”每美元代码质量”其实很有竞争力。
关键 takeaway
不要只看最终结果,看修复成本。 Claude 首次输出就几乎完美,我不需要做任何修改。GPT-5.4 需要我手动修两个测试。Gemini 需要我修类型错误和测试——大约 10 分钟的工作。如果你的工作流是”生成 + 直接用”,Claude 的优势最大。如果你愿意花时间 review 和修改,Gemini 的成本优势更突出。
模型选型决策矩阵
基于以上分析,我的推荐:
| 场景 | 首选模型 | 原因 | 替代方案 |
|---|---|---|---|
| Coding agent / 自动代码修改 | Claude Opus 4.6 | SWE-bench 断层第一,agentic 任务最强 | Grok 4 (性价比更好) |
| 通用 chatbot / 客服 | GPT-5.4 | Arena ELO 最高,用户偏好最好 | Claude Sonnet 4.6 (成本低 5x) |
| 复杂推理 / 研究分析 | GPT-5.4 | HLE 52.1% 领先明显 | Gemini 3.1 Pro (推理也不差) |
| 长文档处理 / 摘要 | Gemini 3.1 Pro | 原生 1M 上下文 + 最低价格 | Claude Opus 4.6 (质量更高) |
| 高吞吐量批量推理 | Gemini 3.1 Pro | 130 tok/s 最快 | DeepSeek V4 (更便宜) |
| 创意写作 / 内容创作 | Claude Opus 4.6 | 自然语言质量公认最佳 | GPT-5.4 (差距在缩小) |
| 成本极度敏感 | DeepSeek V4 | $0.40/M 输入,闭源模型 1/6 | Gemini 3.1 Pro |
| 私有化部署 | DeepSeek V4 | 开源最强,可自建 | Llama 4 Maverick |
一个省钱的实战策略:模型路由
大多数团队不需要在所有请求上都用最贵的模型。我在生产环境中用的策略是 model routing——根据任务复杂度自动选择模型:
from enum import Enum
from dataclasses import dataclass
class ModelTier(Enum):
FAST = "fast" # 简单任务:分类、摘要、格式化
BALANCED = "balanced" # 中等任务:问答、翻译、代码补全
FRONTIER = "frontier" # 复杂任务:多步推理、代码重构、创意写作
@dataclass
class ModelConfig:
name: str
cost_per_1m_input: float
cost_per_1m_output: float
max_context: int
MODEL_REGISTRY: dict[ModelTier, ModelConfig] = {
ModelTier.FAST: ModelConfig(
name="gemini-3.1-flash",
cost_per_1m_input=0.10,
cost_per_1m_output=0.40,
max_context=1_000_000,
),
ModelTier.BALANCED: ModelConfig(
name="claude-sonnet-4-6",
cost_per_1m_input=0.80,
cost_per_1m_output=4.00,
max_context=200_000,
),
ModelTier.FRONTIER: ModelConfig(
name="claude-opus-4-6",
cost_per_1m_input=3.00,
cost_per_1m_output=15.00,
max_context=1_000_000,
),
}
def classify_task_complexity(prompt: str, context_length: int) -> ModelTier:
"""
简单的任务复杂度分类器。
生产环境中可以用一个小模型来做这个分类,成本 < $0.001/request。
"""
# 规则 1:超长上下文 → frontier(需要强理解力)
if context_length > 100_000:
return ModelTier.FRONTIER
# 规则 2:关键词触发 → frontier
frontier_keywords = ["重构", "分析", "设计", "对比", "refactor", "architect"]
if any(kw in prompt.lower() for kw in frontier_keywords):
return ModelTier.FRONTIER
# 规则 3:短 prompt + 简单意图 → fast
if context_length < 2_000 and len(prompt) < 200:
return ModelTier.FAST
# 默认 → balanced
return ModelTier.BALANCED
def route_request(prompt: str, context: str = "") -> ModelConfig:
"""根据任务复杂度路由到合适的模型。"""
context_length = len(context.split())
tier = classify_task_complexity(prompt, context_length)
config = MODEL_REGISTRY[tier]
print(f"[Router] Task → {tier.value} → {config.name}")
return config
# 使用示例
config = route_request(
prompt="把这段代码重构成更清晰的架构",
context="..." * 50_000 # 大型代码库
)
# 输出: [Router] Task → frontier → claude-opus-4-6
我在一个日均 50K 请求的系统上用了这个策略,和全量 frontier 模型相比:
- 成本降低了 72%($3,400/天 → $952/天)
- 平均延迟降低了 41%(大部分请求走了 fast tier)
- 用户满意度没有显著变化(NPS 从 72 降到 70,统计不显著)
关键是:大部分请求不需要 frontier 模型。 在我的数据中,68% 的请求是 fast tier(分类、摘要、简单格式化),24% 是 balanced,只有 8% 需要 frontier。
总结:2026 春季的模型格局
2026 年的 LLM 格局可以用一句话概括:没有全能冠军,但每个模型都有自己的”杀手级”场景。
- Claude Opus 4.6:编码 + 创意写作之王。如果你在做 coding agent 或需要高质量自然语言输出,选它。
- GPT-5.4:最均衡的全能选手。HLE 52.1% 显示它在极端推理任务上有独特优势。适合通用 AI 产品。
- Gemini 3.1 Pro:长上下文 + 性价比之王。处理大文档、高吞吐量场景的首选。
- Grok 4:编码能力仅次于 Claude,定价有竞争力。值得关注。
- DeepSeek V4:开源霸主。私有化部署和成本极度敏感场景的不二之选。
我的行动建议:
- 不要锁定单一模型。 搭建一个支持多模型切换的架构,根据任务路由。
- 编码用 Claude,推理用 GPT-5.4,长文档用 Gemini。 这是目前最优的组合。
- 关注 DeepSeek V4 的演进。 开源模型的进步速度惊人,可能在半年内进一步缩小与闭源模型的差距。
- 建立自己的评测集。 公开基准和你的实际场景一定有差距。维护一个 100-200 条的领域测试集,在切换模型前先跑一遍。
// 下一篇——周三 paper 栏目
// 主题: MoE 架构在 2026 年的演进:从 Switch Transformer 到 DeepSeek V4
console.log("$ ~/yomxxx --next wednesday");