Tools

BrowseComp 2026 横评：21 个 LLM 网页 Agent 实测排行

7 min read · May 15, 2026

2026 年 5 月，OpenAI 把 BrowseComp 排行榜推到了 90.1%。这个由 OpenAI 自己发布的 web 浏览评测，已经成为衡量 LLM 自主上网能力的事实标准。本文整理 2026 年 5 月 7 日的官方榜单，对比 21 个模型在 1266 道刁钻题目上的真实表现，并给出生产场景下的选型建议。

TL;DR

BrowseComp 1.0 用 1266 个”难找的事实”考验 web agent。截至 2026 年 5 月，GPT-5.5 Pro 以 90.1% 领跑，比第二名 GPT-5.5 标准版（84.4%）高 5.7 pp。DeepSeek-V4-Pro-Max 以 83.4% 排第三，是开源 / 准开源阵营第一。本文给出 21 模型的分数、单题成本、推荐使用场景。

一、BrowseComp 到底测什么

BrowseComp 是 OpenAI 在 2026 年 1 月推出的 web 浏览基准，1266 道题，覆盖学术、商业、法律、娱乐等多个领域。每道题的特征是：

答案是单一实体或事实（人名、年份、化合物名称等）
不能通过单次搜索找到——必须组合多个网页、多轮推理
答案存在但难以触及——典型路径需要 8-15 步浏览

例如一道样题：

“1998 年某位美国数学家在加州大学伯克利分校做了一次关于代数几何的演讲，该演讲后来被引用在 2003 年发表的某篇 PNAS 论文中。这位数学家在 2010 年获得的最高奖项是什么？”

要回答这种题，agent 必须：

搜 1998 年伯克利代数几何演讲列表
找到对应数学家姓名
在 PNAS 2003 文献库验证引用
查该数学家的获奖记录
找到 2010 年获奖项目

这比”帮我订机票”难太多。BrowseComp 的核心评估的是信息坚持性（persistence）和网页导航创造力（creativity）。

二、2026 年 5 月榜单

排名	模型 / Agent	BrowseComp 分数	厂商	类型
1	GPT-5.5 Pro	90.1%	OpenAI	闭源
2	GPT-5.4 Pro	89.3%	OpenAI	闭源
3	Opus 4.7 + Computer Use	86.7%	Anthropic	闭源
4	GPT-5.5	84.4%	OpenAI	闭源
5	DeepSeek-V4-Pro-Max	83.4%	DeepSeek	准开源
6	Gemini 3 Pro Deep Research	82.1%	Google	闭源
7	Opus 4.6	79.3%	Anthropic	闭源
8	Browser Use Cloud (Opus 4.7)	78.0%	Browser Use	服务
9	Sonnet 4.6	75.2%	Anthropic	闭源
10	Qwen3.6-VL-Plus	71.4%	阿里	闭源
11	Manus AI Agent v3	70.8%	Butterfly	服务
12	GPT-5 mini	68.5%	OpenAI	闭源
13	Grok 4.3	66.9%	xAI	闭源
14	Qwen3.6 Plus	65.2%	阿里	闭源
15	DeepSeek-V4	62.3%	DeepSeek	开源
16	Mistral Large 3	58.7%	Mistral	闭源
17	Llama 4 Maverick	54.1%	Meta	开源
18	Skyvern (Qwen3.6 32B 后端)	47.8%	Skyvern	开源
19	browser-use (Qwen3.6 32B)	45.2%	open-source	开源
20	Llama 4 Scout	38.6%	Meta	开源
21	Qwen3 8B + browser-use	22.4%	开源	开源

三、四个层级，怎么选

我把 21 个模型分成四个清晰层级：

S 级（>85%）：研究级深挖

GPT-5.5 Pro、GPT-5.4 Pro、Opus 4.7 + Computer Use。适合学术研究、深度调研、新闻线索追溯。成本 1-3 美元/题。

A 级（75-85%）：商业生产可用

GPT-5.5、DeepSeek-V4-Pro-Max、Gemini 3 Pro Deep Research、Opus 4.6。适合产品化的 deep research feature。成本 0.3-1 美元/题。DeepSeek-V4-Pro-Max 是 A 级里性价比最高的——比 GPT-5.5 便宜 70%，分数只低 1 个点。

B 级（60-75%）：日常 agent 工作流

Sonnet 4.6、Qwen3.6-VL-Plus、Manus、GPT-5 mini、Grok 4.3、Qwen3.6 Plus。适合知识库检索 + 简单网页操作。成本 0.05-0.3 美元/题。

C 级（<60%）：实验或受限环境

Llama 4、本地 32B 模型 + browser-use。准确率不够稳定，但部署成本最低，适合内网/合规严苛场景。

四、单题成本与延迟实测

我用 2026 年 5 月 13 日的官方价格 + 平均步数 12 步做计算：

模型	平均步数	单题输入 token	单题输出 token	单题成本
GPT-5.5 Pro	8	95K	12K	$2.80
Opus 4.7 + CU	11	120K	15K	$1.98
DeepSeek-V4-Pro-Max	13	105K	14K	$0.42
Qwen3.6 Plus	15	135K	18K	$0.18
本地 Qwen3.6 32B	21	180K	25K	~$0.01（电费）

性价比最高的两个组合：

DeepSeek-V4-Pro-Max（83.4%、$0.42/题）—— 性能仅次于 GPT-5.5 Pro 6.7 个点，但成本只有 1/7。
Qwen3.6 Plus + 自建 agent（65.2%、$0.18/题）—— 中等准确率，成本极低。

五、Agent 框架横向

模型只是一半，agent 框架是另一半。同样的模型在不同框架下分数差异可达 10-15 个点：

框架	支持模型	在 Opus 4.7 上的 BrowseComp
OpenAI Computer Use	GPT 系列	90.1%
Anthropic Computer Use	Anthropic 系	86.7%
Browser Use Cloud	任意	78.0%
browser-use (OSS)	任意	70.5%
Skyvern	任意	65.2%
LangChain WebAgent	任意	58.0%

闭源厂商的”原生 Computer Use”领先，但 Browser Use Cloud 这种第三方服务也已经追到 78% 这个量级。开源 browser-use 在 70% 量级也已经相当能打。

六、什么时候 web agent 还是不靠谱

即使是 90% 的 GPT-5.5 Pro，仍有 10% 失败率，且失败模式有规律：

JavaScript 重度网页：电商、社交平台的 SPA 让 DOM 解析变难，失败率比普通页面高 3 倍
反爬机制激进的网站：Cloudflare Turnstile、shape captcha 直接挡掉 60% 请求
多语言混合内容：日文、阿拉伯文 + 英文混排，模型容易跳过非英语区域
PDF / 富文档：模型读 PDF 的能力还远不如读 HTML

生产中我会用一个简单 fallback：自动检测失败模式 → 切换到 vision-language 路径或显式调用专业爬虫。

七、选型推荐

场景	推荐组合	月成本（10K 查询）
高端研究助手	GPT-5.5 Pro	$28,000
产品级 deep research	DeepSeek-V4-Pro-Max	$4,200
内部知识 agent	Opus 4.6 + Browser Use Cloud	$7,900
大批量 lead 调研	Qwen3.6 Plus + browser-use	$1,800
合规内网部署	本地 Qwen3.6 32B + browser-use	$200（GPU 折旧）

八、未来 3-6 月的看点

GPT-5.5 Pro 会被 Gemini 4 挑战吗？ Gemini 3 Pro Deep Research 已经到 82.1%，Gemini 4 预计 Q3 发布，可能直接冲击 90%+。
开源能否突破 85%？ DeepSeek-V4-Pro-Max 已经做到 83.4%，下一代 V4.5 有望突破 85%。
Computer Use 标准化：OpenAI、Anthropic、Google 的接口逐步收敛，2026 年底可能有跨厂商的统一 spec。

总结

BrowseComp 是目前最严苛的 web agent 评测之一，2026 年 5 月的榜单告诉我们：闭源依然领先，但开源已经追到 6-7 个点以内；生产场景的最优解几乎都不是榜首模型，而是性价比第二梯队 + 优秀框架的组合。建议每个用 web agent 的团队都跑一遍自己的小型评测集，把”BrowseComp × 0.7”作为基线参考。

Frequently asked questions

BrowseComp 与 WebArena 评测有什么不同？: WebArena 测试预定义任务集（订票、购物、表单），更像 RPA。BrowseComp 测试'信息深挖'能力——需要 agent 持续浏览找到难以发现的实体或事实，无预设路径。BrowseComp 更接近真实研究场景，难度也更高。
为什么 GPT-5.5 Pro 比 GPT-5.5 标准版高这么多？: Pro 版的核心差异是允许多次内部推理和工具调用并行展开。BrowseComp 题目平均需要 8-15 步浏览，多分支并行展开比单链搜索效率高 40-60%，最终决定了 5.7 个百分点的差距。
开源模型中哪个最适合 web agent 场景？: 目前 DeepSeek-V4-Pro-Max（83.4%）领先开源阵营，Qwen3.6-VL-Plus（约 71%）紧随其后。预算更紧的可以选 Qwen3.6 Plus + browser-use 框架的组合，约 65%，成本只有 DeepSeek 的 1/4。
本地部署能跑 BrowseComp 评测吗？: 可以。开源工具 browser-use 与 Skyvern 都提供 BrowseComp 评测脚本。本地部署 Qwen3.6 32B + browser-use，单题成本约 0 元（自有电力），但分数约 45%，比 API 低 20-25 个点，适合内网安全要求高的场景。
BrowseComp 分数对实际产品意义有多大？: 适合作为相对排序而非绝对预测。生产场景中网页结构、域名信任度、反爬机制都会显著影响实际成功率。建议把 BrowseComp 分数 × 0.7 作为生产基线，再用自己业务的 50 条样例做最终校验。

// next.txt ›

One signal per week. No AI filler.

🛠️ Work With Me

AI engineering, hands-on

Architecture review, RAG audit, build sprints.

Reach senior AI engineers

Newsletter slots, sponsored deep-dives.

Some outbound links in this post are affiliate links — see disclosure.