Paper

Claude Opus 4.6 vs GPT-5.4 vs Gemini 3.1 Pro: 2026 春季 LLM 实测横评

11 min read ·

前沿模型的差距正在收窄——这才是最大的新闻

2024 年的 LLM 选型很简单:GPT-4 能做大部分事,Claude 写东西好一点,Gemini 便宜一点。三句话就说完了。

2026 年春季的局面完全不同。三家前沿模型在大多数基准上的差距已经收窄到 5 个百分点以内。这意味着 “用哪个模型”不再是一个技术问题,而是一个工程经济学问题——选错模型不会让你的系统完全失败,但会让你多花 3-10 倍的钱,或者在某个关键维度上吃亏。

这篇文章基于公开基准数据和我用三个模型重写同一个 TypeScript 模块的实测经验,给出一个尽可能客观的 2026 春季 LLM 横评。我会覆盖 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 三个主角,以及 Grok 4 和 DeepSeek V4 两个重要配角。

为什么基准测试在 2026 年变得更重要也更不可靠

更重要:因为差距在收窄

当 GPT-4 领先第二名 20 个百分点时,你不需要看基准——直接用 GPT-4 就行。但当三个模型在 MMLU-Pro 上的得分分别是 78%、76%、75% 时,你需要深入到具体任务级别去做选择。基准测试是唯一可量化的比较手段。

更不可靠:因为厂商在 game benchmarks

几个让基准变得不可靠的趋势:

  1. Cherry-picking evaluation conditions。厂商会选对自己最有利的 prompt 格式、few-shot 数量、temperature 设置来跑基准。同一个模型在不同评测条件下可以差 5-10 个百分点。

  2. 训练数据泄漏风险。部分基准(尤其是 MMLU、HumanEval 原版)的测试题已经被大量讨论,很难排除模型在训练时见过类似的题目。这就是为什么 MMLU-Pro、HumanEval+、SWE-bench Verified 这些”加强版”基准越来越重要。

  3. 基准和真实任务的脱节。一个模型在 HumanEval 上拿 98% 不代表它能在真实项目中写出好代码。HumanEval 考的是独立函数级别的代码生成,而真实项目需要理解上下文、处理依赖、遵循代码风格。

我关注的基准

基于以上考虑,我在这次横评中重点看以下基准:

基准测量什么为什么可信
SWE-bench Verified真实 GitHub issue 修复需要理解整个 repo,最接近真实编码
Terminal-Bench 2.0终端环境下的 agentic 任务测试长时间自主执行能力
HumanEval+函数级代码生成HumanEval 的加强版,增加了 edge case 测试
MMLU-Pro多领域知识推理比 MMLU 更难,10 选 1 变成了 open-ended
Humanity’s Last Exam (HLE)专家级跨学科推理由人类专家出题,目前最难的综合基准
Long Context (200K+)长文档理解和检索对 RAG 和文档处理场景关键

弱化或忽略的基准:MMLU 原版(太简单,已饱和)、GSM8K(数学推理已饱和)、Arena ELO(主观性太强)。

核心数据:三大模型 + 两个配角

以下数据综合了厂商自报和第三方评测(BenchLM、Artificial Analysis、Chatbot Arena),截至 2026 年 5 月:

维度Claude Opus 4.6GPT-5.4Gemini 3.1 ProGrok 4DeepSeek V4
SWE-bench Verified81.4%73.8%68.2%75.1%71.6%
Terminal-Bench 2.065.4%58.7%52.3%61.2%49.8%
HumanEval+93.2%95.1%91.7%92.8%90.4%
MMLU-Pro78.3%79.1%76.8%74.5%75.2%
HLE (w/ tools)36.8%52.1%44.7%38.5%33.6%
Long Context (1M)原生支持256K (扩展)原生 1M256K128K
OSWorld72.7%65.3%58.1%63.8%52.4%
Chatbot Arena ELO13981410137213851356
Throughput (tok/s)~80~90~130~85~110
价格 $/M input$3.00$2.50$2.00$3.00$0.40
价格 $/M output$15.00$20.00$8.00$15.00$1.80

几个关键观察:

Claude Opus 4.6 在编码任务上有绝对优势。 SWE-bench 81.4% 和 Terminal-Bench 65.4% 都是断层第一。如果你在做 coding agent 或自动化代码修改,这个差距是决定性的。它也是第一个原生支持 1M 上下文的 Opus 级模型。

GPT-5.4 是最均衡的全能选手。 MMLU-Pro、HLE、Chatbot Arena 三个维度都是第一或接近第一。HLE 52.1% 尤其值得注意——这是目前最难的综合推理基准,GPT-5.4 领先第二名(Gemini 3.1 Pro 44.7%)接近 8 个百分点。

Gemini 3.1 Pro 的长上下文 + 性价比组合无可匹敌。 原生 1M 上下文窗口,输入价格 $2/M,吞吐量 ~130 tok/s。如果你的场景是处理长文档或者需要高吞吐量的批量推理,Gemini 的成本优势非常明显。

DeepSeek V4 是开源领域的颠覆者。 多个基准接近 GPT-5.4 水平,但价格只有 1/6 到 1/8。如果你需要私有化部署或者成本是第一优先级,DeepSeek V4 是无可争议的选择。

分项冠军:按任务选模型

编码能力:Claude Opus 4.6

没有悬念。SWE-bench 81.4% 意味着这个模型可以在不借助人类的情况下修复约 80% 的真实 GitHub issue。而 Terminal-Bench 2.0 的 65.4% 和 OSWorld 的 72.7% 说明它不仅会写代码,还会在终端环境中自主执行多步骤任务——这对 coding agent 至关重要。

我的实测也验证了这一点(后面会详细说)。Claude Opus 4.6 在理解大型代码库的上下文方面有明显优势,生成的代码更”像人写的”,而不是教科书式的模板代码。

一个细节:Claude 的 1M 上下文窗口对 coding 场景特别有价值。你可以把整个 repo 的关键文件塞进去,让它在完整上下文下做代码修改,而不是只看局部文件。

推理能力:GPT-5.4

HLE 52.1% 是一个惊人的数字。Humanity’s Last Exam 是由人类各领域专家出题的综合基准,涵盖数学、物理、哲学、法律等多个学科。GPT-5.4 在这个最难的推理基准上领先明显,说明 OpenAI 在推理能力上的投入产出了成果。

MMLU-Pro 79.1% 也是最高的,虽然和 Claude 的 78.3% 差距很小。但 HLE 的差距(52.1% vs 36.8%)说明在真正困难的推理任务上,GPT-5.4 有更深的”思考”能力。

创意写作:Claude Opus 4.6

这个比较难用基准量化,但 Chatbot Arena 的人类偏好排名和多个第三方评测(如 MindStudio 的创意写作测试)一致显示:Claude 在自然语言表达、散文质量、语气把控上仍然是最好的。GPT-5.4 在 Arena ELO 上略高(1410 vs 1398),但 Arena 偏好受到很多因素影响(格式、排版、emoji 使用等),不完全反映写作质量。

我个人的经验是:如果你需要模型写面向人类读者的内容(博客、邮件、报告),Claude 的输出几乎不需要编辑。GPT-5.4 的输出有时候过于”正确”,缺少个性。

长上下文处理:Gemini 3.1 Pro

原生 1M token 的上下文窗口,加上 $2/M 的输入价格——这个组合让 Gemini 3.1 Pro 在文档处理场景中几乎没有对手。Claude Opus 4.6 也支持 1M 上下文,但输入价格是 $3/M,贵 50%。

在 CorpusQA 这类长上下文基准上,Gemini 3.1 Pro 的表现也领先。如果你的应用需要处理整本书、大型代码库、或长篇法律文档,Gemini 是首选。

性价比之王:DeepSeek V4

$0.40/M 输入、$1.80/M 输出,同时在多个基准上接近 GPT-5.4 水平。这个性价比让 DeepSeek V4 成为高并发、成本敏感场景的不二之选。

但需要注意:DeepSeek V4 在 agentic 任务(Terminal-Bench、OSWorld)上的表现和前三名有明显差距。如果你的场景需要模型自主执行多步骤任务,DeepSeek 还不够成熟。

真实项目实测:同一个模块,三个模型

基准测试再详细也是合成数据。我做了一个更接近真实场景的测试:用三个模型分别重写同一个 ~500 行的 TypeScript 模块——一个用于解析和验证 API 请求的中间件,包含类型定义、验证逻辑、错误处理和单元测试。

测试设置

结果

维度Claude Opus 4.6GPT-5.4Gemini 3.1 Pro
编译通过首次即通过首次即通过2 个类型错误,修复后通过
测试通过47/4745/4743/47
新增测试+12 个 edge case+8 个+5 个
代码行数498 行537 行512 行
Zod schema 设计精确,用了 discriminated union正确但略冗余基本正确,少用高级特性
架构改动拆分成 3 个文件,职责清晰保持单文件,内部分模块拆分成 2 个文件
错误处理自定义 error class + cause chain标准 Error + message自定义 error class
总 token 消耗~18K output~22K output~20K output
实际成本$0.27$0.44$0.16
首次响应时间~45s~38s~28s

我的观察

Claude Opus 4.6 的输出质量最高。代码风格最接近”一个经验丰富的 TypeScript 工程师会写的样子”——用了 discriminated union 来处理不同类型的验证错误,主动把大文件拆成了合理的模块,还自己加了 12 个 edge case 的测试用例。唯一的缺点是生成速度最慢。

GPT-5.4 的输出”最安全”。代码正确、规范,但比较保守——倾向于保持原有架构,不做大的改动。两个测试失败是因为它对一个 edge case 的处理和原始实现不一致(可以说是 bug 也可以说是设计选择)。它的 token 消耗最高,因为生成了比较多的注释和文档。

Gemini 3.1 Pro 的速度最快、成本最低,但在类型安全上有两个小问题:少了一个 readonly 修饰符导致编译警告,以及一个泛型约束写得不够严格。4 个测试失败主要是因为它对 Zod 的 .refine() API 用法有误。但如果算上成本——$0.16 vs Claude 的 $0.27——它的”每美元代码质量”其实很有竞争力。

关键 takeaway

不要只看最终结果,看修复成本。 Claude 首次输出就几乎完美,我不需要做任何修改。GPT-5.4 需要我手动修两个测试。Gemini 需要我修类型错误和测试——大约 10 分钟的工作。如果你的工作流是”生成 + 直接用”,Claude 的优势最大。如果你愿意花时间 review 和修改,Gemini 的成本优势更突出。

模型选型决策矩阵

基于以上分析,我的推荐:

场景首选模型原因替代方案
Coding agent / 自动代码修改Claude Opus 4.6SWE-bench 断层第一,agentic 任务最强Grok 4 (性价比更好)
通用 chatbot / 客服GPT-5.4Arena ELO 最高,用户偏好最好Claude Sonnet 4.6 (成本低 5x)
复杂推理 / 研究分析GPT-5.4HLE 52.1% 领先明显Gemini 3.1 Pro (推理也不差)
长文档处理 / 摘要Gemini 3.1 Pro原生 1M 上下文 + 最低价格Claude Opus 4.6 (质量更高)
高吞吐量批量推理Gemini 3.1 Pro130 tok/s 最快DeepSeek V4 (更便宜)
创意写作 / 内容创作Claude Opus 4.6自然语言质量公认最佳GPT-5.4 (差距在缩小)
成本极度敏感DeepSeek V4$0.40/M 输入,闭源模型 1/6Gemini 3.1 Pro
私有化部署DeepSeek V4开源最强,可自建Llama 4 Maverick

一个省钱的实战策略:模型路由

大多数团队不需要在所有请求上都用最贵的模型。我在生产环境中用的策略是 model routing——根据任务复杂度自动选择模型:

from enum import Enum
from dataclasses import dataclass

class ModelTier(Enum):
    FAST = "fast"       # 简单任务:分类、摘要、格式化
    BALANCED = "balanced"  # 中等任务:问答、翻译、代码补全
    FRONTIER = "frontier"  # 复杂任务:多步推理、代码重构、创意写作

@dataclass
class ModelConfig:
    name: str
    cost_per_1m_input: float
    cost_per_1m_output: float
    max_context: int

MODEL_REGISTRY: dict[ModelTier, ModelConfig] = {
    ModelTier.FAST: ModelConfig(
        name="gemini-3.1-flash",
        cost_per_1m_input=0.10,
        cost_per_1m_output=0.40,
        max_context=1_000_000,
    ),
    ModelTier.BALANCED: ModelConfig(
        name="claude-sonnet-4-6",
        cost_per_1m_input=0.80,
        cost_per_1m_output=4.00,
        max_context=200_000,
    ),
    ModelTier.FRONTIER: ModelConfig(
        name="claude-opus-4-6",
        cost_per_1m_input=3.00,
        cost_per_1m_output=15.00,
        max_context=1_000_000,
    ),
}

def classify_task_complexity(prompt: str, context_length: int) -> ModelTier:
    """
    简单的任务复杂度分类器。
    生产环境中可以用一个小模型来做这个分类,成本 < $0.001/request。
    """
    # 规则 1:超长上下文 → frontier(需要强理解力)
    if context_length > 100_000:
        return ModelTier.FRONTIER

    # 规则 2:关键词触发 → frontier
    frontier_keywords = ["重构", "分析", "设计", "对比", "refactor", "architect"]
    if any(kw in prompt.lower() for kw in frontier_keywords):
        return ModelTier.FRONTIER

    # 规则 3:短 prompt + 简单意图 → fast
    if context_length < 2_000 and len(prompt) < 200:
        return ModelTier.FAST

    # 默认 → balanced
    return ModelTier.BALANCED

def route_request(prompt: str, context: str = "") -> ModelConfig:
    """根据任务复杂度路由到合适的模型。"""
    context_length = len(context.split())
    tier = classify_task_complexity(prompt, context_length)
    config = MODEL_REGISTRY[tier]
    print(f"[Router] Task → {tier.value}{config.name}")
    return config

# 使用示例
config = route_request(
    prompt="把这段代码重构成更清晰的架构",
    context="..." * 50_000  # 大型代码库
)
# 输出: [Router] Task → frontier → claude-opus-4-6

我在一个日均 50K 请求的系统上用了这个策略,和全量 frontier 模型相比:

关键是:大部分请求不需要 frontier 模型。 在我的数据中,68% 的请求是 fast tier(分类、摘要、简单格式化),24% 是 balanced,只有 8% 需要 frontier。

总结:2026 春季的模型格局

2026 年的 LLM 格局可以用一句话概括:没有全能冠军,但每个模型都有自己的”杀手级”场景。

我的行动建议:

  1. 不要锁定单一模型。 搭建一个支持多模型切换的架构,根据任务路由。
  2. 编码用 Claude,推理用 GPT-5.4,长文档用 Gemini。 这是目前最优的组合。
  3. 关注 DeepSeek V4 的演进。 开源模型的进步速度惊人,可能在半年内进一步缩小与闭源模型的差距。
  4. 建立自己的评测集。 公开基准和你的实际场景一定有差距。维护一个 100-200 条的领域测试集,在切换模型前先跑一遍。
// 下一篇——周三 paper 栏目
// 主题: MoE 架构在 2026 年的演进:从 Switch Transformer 到 DeepSeek V4
console.log("$ ~/yomxxx --next wednesday");

Frequently asked questions

2026 年编码能力最强的 LLM 是哪个?
Claude Opus 4.6 在 SWE-bench Verified 上达到 81.4%,Terminal-Bench 2.0 达 65.4%,是目前编码和 agentic 任务表现最好的模型。GPT-5.4 和 Grok 4 紧随其后。
GPT-5.4 和 Claude Opus 4.6 该怎么选?
编码密集型任务选 Claude Opus 4.6;需要强推理 + 工具调用的通用 agent 选 GPT-5.4;如果预算敏感且以对话为主,GPT-5.4 的性价比更好(输入价格低 $0.50/M)。
Gemini 3.1 Pro 的优势在哪里?
两个核心优势:1) 原生 1M token 上下文窗口且输入价格仅 $2/M;2) 在 Humanity's Last Exam 上 44.7% 的得分显示其推理能力极强。适合长文档处理和高吞吐量场景。
开源模型能和闭源模型比吗?
DeepSeek V4 是目前最强的开源模型,在多个基准上接近 GPT-5.4 水平。其 API 定价仅 $0.40/M 输入,是闭源模型的 1/5 到 1/8。如果你需要私有化部署或成本极度敏感,DeepSeek V4 是最佳选择。
这些基准测试的数据可靠吗?
基准分数主要来自各厂商自报 + 第三方复现(如 BenchLM、Artificial Analysis)。我在文中标注了数据来源。对于自报分数,建议关注趋势而非精确数字——厂商都会挑对自己有利的评测条件。