2026 年 5 月,OpenAI 把 BrowseComp 排行榜推到了 90.1%。这个由 OpenAI 自己发布的 web 浏览评测,已经成为衡量 LLM 自主上网能力的事实标准。本文整理 2026 年 5 月 7 日的官方榜单,对比 21 个模型在 1266 道刁钻题目上的真实表现,并给出生产场景下的选型建议。
TL;DR
BrowseComp 1.0 用 1266 个”难找的事实”考验 web agent。截至 2026 年 5 月,GPT-5.5 Pro 以 90.1% 领跑,比第二名 GPT-5.5 标准版(84.4%)高 5.7 pp。DeepSeek-V4-Pro-Max 以 83.4% 排第三,是开源 / 准开源阵营第一。本文给出 21 模型的分数、单题成本、推荐使用场景。
一、BrowseComp 到底测什么
BrowseComp 是 OpenAI 在 2026 年 1 月推出的 web 浏览基准,1266 道题,覆盖学术、商业、法律、娱乐等多个领域。每道题的特征是:
- 答案是单一实体或事实(人名、年份、化合物名称等)
- 不能通过单次搜索找到——必须组合多个网页、多轮推理
- 答案存在但难以触及——典型路径需要 8-15 步浏览
例如一道样题:
“1998 年某位美国数学家在加州大学伯克利分校做了一次关于代数几何的演讲,该演讲后来被引用在 2003 年发表的某篇 PNAS 论文中。这位数学家在 2010 年获得的最高奖项是什么?”
要回答这种题,agent 必须:
- 搜 1998 年伯克利代数几何演讲列表
- 找到对应数学家姓名
- 在 PNAS 2003 文献库验证引用
- 查该数学家的获奖记录
- 找到 2010 年获奖项目
这比”帮我订机票”难太多。BrowseComp 的核心评估的是信息坚持性(persistence)和网页导航创造力(creativity)。
二、2026 年 5 月榜单
| 排名 | 模型 / Agent | BrowseComp 分数 | 厂商 | 类型 |
|---|---|---|---|---|
| 1 | GPT-5.5 Pro | 90.1% | OpenAI | 闭源 |
| 2 | GPT-5.4 Pro | 89.3% | OpenAI | 闭源 |
| 3 | Opus 4.7 + Computer Use | 86.7% | Anthropic | 闭源 |
| 4 | GPT-5.5 | 84.4% | OpenAI | 闭源 |
| 5 | DeepSeek-V4-Pro-Max | 83.4% | DeepSeek | 准开源 |
| 6 | Gemini 3 Pro Deep Research | 82.1% | 闭源 | |
| 7 | Opus 4.6 | 79.3% | Anthropic | 闭源 |
| 8 | Browser Use Cloud (Opus 4.7) | 78.0% | Browser Use | 服务 |
| 9 | Sonnet 4.6 | 75.2% | Anthropic | 闭源 |
| 10 | Qwen3.6-VL-Plus | 71.4% | 阿里 | 闭源 |
| 11 | Manus AI Agent v3 | 70.8% | Butterfly | 服务 |
| 12 | GPT-5 mini | 68.5% | OpenAI | 闭源 |
| 13 | Grok 4.3 | 66.9% | xAI | 闭源 |
| 14 | Qwen3.6 Plus | 65.2% | 阿里 | 闭源 |
| 15 | DeepSeek-V4 | 62.3% | DeepSeek | 开源 |
| 16 | Mistral Large 3 | 58.7% | Mistral | 闭源 |
| 17 | Llama 4 Maverick | 54.1% | Meta | 开源 |
| 18 | Skyvern (Qwen3.6 32B 后端) | 47.8% | Skyvern | 开源 |
| 19 | browser-use (Qwen3.6 32B) | 45.2% | open-source | 开源 |
| 20 | Llama 4 Scout | 38.6% | Meta | 开源 |
| 21 | Qwen3 8B + browser-use | 22.4% | 开源 | 开源 |
三、四个层级,怎么选
我把 21 个模型分成四个清晰层级:
S 级(>85%):研究级深挖
GPT-5.5 Pro、GPT-5.4 Pro、Opus 4.7 + Computer Use。适合学术研究、深度调研、新闻线索追溯。成本 1-3 美元/题。
A 级(75-85%):商业生产可用
GPT-5.5、DeepSeek-V4-Pro-Max、Gemini 3 Pro Deep Research、Opus 4.6。适合产品化的 deep research feature。成本 0.3-1 美元/题。DeepSeek-V4-Pro-Max 是 A 级里性价比最高的——比 GPT-5.5 便宜 70%,分数只低 1 个点。
B 级(60-75%):日常 agent 工作流
Sonnet 4.6、Qwen3.6-VL-Plus、Manus、GPT-5 mini、Grok 4.3、Qwen3.6 Plus。适合知识库检索 + 简单网页操作。成本 0.05-0.3 美元/题。
C 级(<60%):实验或受限环境
Llama 4、本地 32B 模型 + browser-use。准确率不够稳定,但部署成本最低,适合内网/合规严苛场景。
四、单题成本与延迟实测
我用 2026 年 5 月 13 日的官方价格 + 平均步数 12 步做计算:
| 模型 | 平均步数 | 单题输入 token | 单题输出 token | 单题成本 |
|---|---|---|---|---|
| GPT-5.5 Pro | 8 | 95K | 12K | $2.80 |
| Opus 4.7 + CU | 11 | 120K | 15K | $1.98 |
| DeepSeek-V4-Pro-Max | 13 | 105K | 14K | $0.42 |
| Qwen3.6 Plus | 15 | 135K | 18K | $0.18 |
| 本地 Qwen3.6 32B | 21 | 180K | 25K | ~$0.01(电费) |
性价比最高的两个组合:
- DeepSeek-V4-Pro-Max(83.4%、$0.42/题)—— 性能仅次于 GPT-5.5 Pro 6.7 个点,但成本只有 1/7。
- Qwen3.6 Plus + 自建 agent(65.2%、$0.18/题)—— 中等准确率,成本极低。
五、Agent 框架横向
模型只是一半,agent 框架是另一半。同样的模型在不同框架下分数差异可达 10-15 个点:
| 框架 | 支持模型 | 在 Opus 4.7 上的 BrowseComp |
|---|---|---|
| OpenAI Computer Use | GPT 系列 | 90.1% |
| Anthropic Computer Use | Anthropic 系 | 86.7% |
| Browser Use Cloud | 任意 | 78.0% |
| browser-use (OSS) | 任意 | 70.5% |
| Skyvern | 任意 | 65.2% |
| LangChain WebAgent | 任意 | 58.0% |
闭源厂商的”原生 Computer Use”领先,但 Browser Use Cloud 这种第三方服务也已经追到 78% 这个量级。开源 browser-use 在 70% 量级也已经相当能打。
六、什么时候 web agent 还是不靠谱
即使是 90% 的 GPT-5.5 Pro,仍有 10% 失败率,且失败模式有规律:
- JavaScript 重度网页:电商、社交平台的 SPA 让 DOM 解析变难,失败率比普通页面高 3 倍
- 反爬机制激进的网站:Cloudflare Turnstile、shape captcha 直接挡掉 60% 请求
- 多语言混合内容:日文、阿拉伯文 + 英文混排,模型容易跳过非英语区域
- PDF / 富文档:模型读 PDF 的能力还远不如读 HTML
生产中我会用一个简单 fallback:自动检测失败模式 → 切换到 vision-language 路径或显式调用专业爬虫。
七、选型推荐
| 场景 | 推荐组合 | 月成本(10K 查询) |
|---|---|---|
| 高端研究助手 | GPT-5.5 Pro | $28,000 |
| 产品级 deep research | DeepSeek-V4-Pro-Max | $4,200 |
| 内部知识 agent | Opus 4.6 + Browser Use Cloud | $7,900 |
| 大批量 lead 调研 | Qwen3.6 Plus + browser-use | $1,800 |
| 合规内网部署 | 本地 Qwen3.6 32B + browser-use | $200(GPU 折旧) |
八、未来 3-6 月的看点
- GPT-5.5 Pro 会被 Gemini 4 挑战吗? Gemini 3 Pro Deep Research 已经到 82.1%,Gemini 4 预计 Q3 发布,可能直接冲击 90%+。
- 开源能否突破 85%? DeepSeek-V4-Pro-Max 已经做到 83.4%,下一代 V4.5 有望突破 85%。
- Computer Use 标准化:OpenAI、Anthropic、Google 的接口逐步收敛,2026 年底可能有跨厂商的统一 spec。
总结
BrowseComp 是目前最严苛的 web agent 评测之一,2026 年 5 月的榜单告诉我们:闭源依然领先,但开源已经追到 6-7 个点以内;生产场景的最优解几乎都不是榜首模型,而是性价比第二梯队 + 优秀框架的组合。建议每个用 web agent 的团队都跑一遍自己的小型评测集,把”BrowseComp × 0.7”作为基线参考。