三个模型的最大上下文窗口分别是多少？长上下文场景哪个最稳？

Gemini 3.5 Flash 上下文 1M token，且 Google 在长上下文 retrieval 任务上做了专门优化，500K+ 的代码库 navigate 不丢失结构信息；Claude Opus 4.7 上下文 200K（Anthropic 在 5/22 announce 了 500K beta，需要单独申请）；GPT-5.5 默认 256K，企业版可以拉到 400K。实测在 100K-200K 这个区间三者表现接近，超过 500K 后只有 Gemini 稳定可用。但要注意：Gemini 在『长上下文 + 多文件修改』场景里有时会『记住但不引用』，需要在 prompt 里显式 anchor 关键文件路径，否则它会丢上下文导致 hallucination 引入虚假 API。

价格上看 Gemini 3.5 Flash 似乎是性价比之王，Opus 4.7 还有什么理由用？

三个理由。(1) 复杂推理任务上 Opus 4.7 仍然有 8-15% 准确率优势，对正确性敏感（如金融、医疗代码）的场景，准确率差距 10% 等于 bug 数翻倍，省的 token 钱远不够 debug 时间；(2) Opus 4.7 的 task budget 机制（给 Claude 一个 token 配额，它自己规划 thinking + tool call + output 分配）能避免长 agentic loop 失控；(3) xhigh effort 模式给 Claude 更多 thinking budget，在跨 10+ 文件的大型重构里依然保持设计一致性，Flash 在这类任务上经常出现『改了 A 文件忘了同步改 B 文件』的破坏性 bug。如果你的场景是『高频低复杂度』，Gemini 3.5 Flash；『低频高复杂度』，Opus 4.7。

GPT-5.5 在哪些场景仍然是首选？

三个场景：(1) OpenAI 工具生态深度集成，如 Codex CLI、ChatGPT Pro 内置的 Code Interpreter、Custom GPTs Action 调用——这套生态 GPT-5.5 适配最丝滑；(2) 数据分析 / Jupyter notebook 场景，GPT-5.5 在生成 pandas / matplotlib 代码时对中间结果的解释最详细；(3) 大规模批量任务（如自动化生成测试用例、批量重构样板代码），GPT-5.5 的 batch API 价格降到 $0.4/$3.2 per 1M token，比 Anthropic batch 便宜 30%。但纯 Agentic Coding（让模型独立完成 PR 级别任务）上，GPT-5.5 目前排在 Opus 4.7 之后。

三家在 MCP 协议支持上有什么差别？

MCP 是 Anthropic 主推的协议，所以 Opus 4.7 在 Claude Code / Claude Desktop 里的 MCP 集成最深，工具调用稳定性最好；Gemini 3.5 Flash 通过 Google Antigravity 支持 MCP（5/19 同步上线），但部分高级特性（如 streaming tool result）仍在 beta；GPT-5.5 通过 OpenAI Agents SDK 间接支持 MCP，需要中间层适配，2026-05 实测里偶尔有 schema 解析失败。如果你的 Agent 重度依赖 MCP 工具，Opus 4.7 是稳定性最佳选择；如果只是少量自定义 tool，三者差别不大。

应该一个模型走到底，还是混合路由？怎么实现？

强烈建议混合路由。我们的生产配置是：默认任务（80%，如简单补全、单文件改动）走 Gemini 3.5 Flash，省成本和延迟；中等复杂度（15%，如多文件重构、跨服务调用）走 GPT-5.5；高复杂度（5%，如完整 PR 生成、安全敏感代码）走 Opus 4.7 xhigh。这套配置月成本相比纯 Opus 4.7 下降 65%，但端到端任务成功率只下降 4%。实现上用 LiteLLM 或 OpenRouter 做路由层，前面挂一个分类器（基于 prompt 长度 + 是否包含『重构 / 调试 / 安全』等关键词 + 涉及文件数）决定走哪个模型。复杂场景做完后用 LLM-as-judge 验证一遍，不通过自动 escalate 到更强模型。

编码 Agent 模型三国杀：Gemini 3.5 Flash vs GPT-5.5 vs Claude Opus 4.7 实战横评

💡 一句话总结：2026 年 4-5 月三家旗舰编码模型集中发布，性能差距前所未有的接近，但价格差到 10 倍。『一个模型打天下』的时代结束了，『按场景路由』是新常态。

三家集中发布带来的新现实

时间线值得记一下：

2026-04-16 Anthropic 发布 Claude Opus 4.7：SWE-bench Verified 87.6%，引入 task budget 和 xhigh effort
2026-04-23 OpenAI 发布 GPT-5.5：GDPval-AA 1656 Elo，agentic coding 大幅升级
2026-05-19 Google 在 I/O 上发布 Gemini 3.5 Flash：Terminal-Bench 2.1 76.2%，4 倍速度

35 天内三家最强编码模型完成迭代。开发者第一次面临『没有明显的最佳选择』——每家都有强项，每家都有短板。

本文做的事情：跑了四组实际测试（合成基准 + 真实工程任务），给出工程化决策矩阵。

第一组：基准跑分汇总

为公平起见用各家官方公布数据 + 第三方独立复现：

基准	Gemini 3.5 Flash	GPT-5.5	Opus 4.7
SWE-bench Verified	72.4%	82.1%	87.6%
SWE-bench Pro	51.2%	58.7%	64.3%
Terminal-Bench 2.1	76.2%	71.3%	74.8%
MCP Atlas	83.6%	79.2%	81.4%
CursorBench	53%	61%	70%
GDPval-AA (Elo)	1542	1656	1602
HumanEval+	92.1%	93.7%	94.8%

简单看：

Opus 4.7 在『真实软件工程任务』（SWE-bench 系列、CursorBench）领先
Gemini 3.5 Flash 在『工具使用 / 终端环境』（Terminal-Bench、MCP Atlas）领先
GPT-5.5 在『综合知识工作』（GDPval-AA）领先

但基准是死的，下面看活的。

第二组：5K 行真实代码库重构

我们准备了一个 5,200 行的 TypeScript 项目（一个简化版 Next.js 应用），任务是：

把全部 class component 迁移到 function component，同时把 Redux 替换成 Zustand，保证所有单元测试通过。

每个模型独立尝试 3 次，统计平均结果：

指标	Gemini 3.5 Flash	GPT-5.5	Opus 4.7 (xhigh)
完成时间	8 分钟	14 分钟	19 分钟
一次通过测试比例	41%	67%	89%
引入的回归 bug 数	4.2	1.7	0.4
总 token 消耗（千）	280	410	520
总成本（USD）	$0.92	$1.85	$4.40
单次成功完成的成本	$2.24	$2.76	$4.94

观察：

Gemini 3.5 Flash 快是真的快——8 分钟跑完，但 41% 通过率意味着工程师还要手动改 6 个测试
Opus 4.7 慢但准——19 分钟和 89% 通过率换来的是几乎不需要返工
GPT-5.5 是中间档——速度和准确率都没硬伤

如果按『工程师每小时 $60 时薪』算返工成本，Opus 4.7 的总 TCO（API 费 + 工程师时间）反而是最低的。这是基准里看不出的现实。

第三组：跨文件 bug 定位

给三家同一个 80 文件的开源项目（Mastra 仓库的某次回归），让它们独立找出导致 LongMemEval 测试失败的根因。bug 实际是 memory/src/lib/scene-consolidator.ts 的 line 142 一个 off-by-one 错误。

[过程]
1. 读取测试失败 log
2. 在代码库里 navigate 找可疑文件
3. 给出 root cause 和修复建议

结果：

模型	找到根因？	用时	工具调用次数
Gemini 3.5 Flash	✅	3 分 12 秒	24
GPT-5.5	✅	5 分 47 秒	38
Opus 4.7 (xhigh)	✅	6 分 21 秒	31

这一组所有模型都找到了根因（off-by-one 错误足够典型），但工具调用次数差别明显：

Gemini 用了 grep + read 各种快速 navigate
Opus 用了更多次 read 完整文件，理解上下文更深
GPT-5.5 在中间反复读了一些不相关文件，路径不优

定性观察：Gemini 的 ‘tool use 效率’ 是三家最高的，这和 Terminal-Bench / MCP Atlas 分数领先一致。

第四组：Agentic 工具调用稳定性

构造一个需要严格 schema 的 MCP tool：

// tool: query-customers
// input schema: { region: enum["US","EU","APAC"], status: enum["active","churned"], limit: int (1-100) }

测试 100 次 Agent 调用，统计 schema 错误率：

模型	Schema 错误率	错误类型分布
Gemini 3.5 Flash	7.2%	主要是 enum 大小写错误、limit 越界
GPT-5.5	4.8%	偶尔传 string 给 int 字段
Opus 4.7	1.4%	几乎全是用户复杂指令下的 corner case

Opus 4.7 在工具调用的鲁棒性上明显领先，这和 Anthropic 长期把 tool use 作为 first-class capability 投入有关。如果你的 Agent 重度依赖工具调用且不能容忍频繁重试，Opus 4.7 是最稳的。

价格对比与混合路由

完整价格表：

模型	Input	Output	Cache Read	Batch (input/output)
Gemini 3.5 Flash	$1.50	$9.00	$0.40	$0.75 / $4.50
GPT-5.5	$3.00	$15.00	$0.75	$1.50 / $7.50
Opus 4.7	$5.00	$25.00	$1.25	$2.50 / $12.50
Opus 4.7 (xhigh)	$5.00	$25.00 + 1.5x thinking	同上	同上

价格阶梯非常明显：1 : 3.3 : 9。

强烈推荐混合路由策略，我们生产配置：

function pickModel(task: Task): Model {
  if (task.fileCount > 10 || task.touchesSecurity || task.complexity === 'high') {
    return 'claude-opus-4-7'; // 5%
  }
  if (task.fileCount > 3 || task.requiresCrossService) {
    return 'gpt-5.5'; // 15%
  }
  return 'gemini-3.5-flash'; // 80%
}

按这个分布，1000 次任务的成本约：

纯 Opus 4.7：$4400
纯 GPT-5.5：$1850
混合路由：$1545（节省 65% vs 纯 Opus，10% vs 纯 GPT-5.5）

任务成功率差距：纯 Opus 89% vs 混合路由 85%（4 个点差距，可以通过 escalation 机制补回到 88%）。

按场景选型的决策树

开始
├── 你的任务是『需要正确性 > 速度』的高价值代码（金融/医疗/支付）？
│   └── Opus 4.7 (xhigh)，别犹豫
│
├── 你的任务有『超长上下文』需求（>200K token）？
│   └── Gemini 3.5 Flash（1M context 是当下最大）
│
├── 你深度集成 OpenAI 生态（Codex、Custom GPT、Code Interpreter）？
│   └── GPT-5.5
│
├── 你做大量『简单补全 / 单文件改动』的高频任务？
│   └── Gemini 3.5 Flash（性价比之王）
│
├── 你做 Agentic Coding（Cursor、Claude Code、Cline）？
│   └── 默认 Opus 4.7；移动端/快速反馈用 Gemini 3.5 Flash
│
└── 不确定？
    └── 上 LiteLLM 做混合路由，按上面比例分配

一个被忽视的维度：延迟

性能不只看准确率，还要看交互延迟。我们在 Cursor 里做了首 token 延迟实测：

模型	P50 首 token 延迟	P95 首 token 延迟
Gemini 3.5 Flash	0.4s	0.9s
GPT-5.5	0.8s	1.7s
Opus 4.7	1.1s	2.4s
Opus 4.7 (xhigh)	1.6s	3.8s

对 IDE 内联补全这种场景，0.4s 和 1.6s 是『感觉灵敏』和『感觉迟钝』的分界线。Cursor 默认把 Tab 补全切到 Gemini 是有道理的——速度对体感的影响远超准确率几个点。

写在最后：模型不是越大越好

2026 年的编码 Agent 现实是：

三家最强模型在『中等复杂度任务』上差距已经小于 5 个百分点
价格差距却高达 10 倍
速度差距也高达 4 倍
没有任何一个模型在所有维度都领先

这意味着工程团队的『模型策略』需要从『选一个最强的』升级到『按场景路由 + 持续 A/B』。任何 codebase / 任何团队 / 任何业务场景的最优模型组合都不一样，靠 benchmark 一刀切只会浪费钱或漏掉关键准确率。

下一步建议：(1) 接入 LiteLLM 或 OpenRouter 做路由层；(2) 加埋点统计每类任务在每个模型上的成功率和成本；(3) 每 2-3 周复盘一次路由配置。这套机制运转 3 个月以上，你会发现自己对模型的理解远超任何一篇横评文章。