Tools

BrowseComp 2026 横评:21 个 LLM 网页 Agent 实测排行

7 min read ·

2026 年 5 月,OpenAI 把 BrowseComp 排行榜推到了 90.1%。这个由 OpenAI 自己发布的 web 浏览评测,已经成为衡量 LLM 自主上网能力的事实标准。本文整理 2026 年 5 月 7 日的官方榜单,对比 21 个模型在 1266 道刁钻题目上的真实表现,并给出生产场景下的选型建议。

TL;DR

BrowseComp 1.0 用 1266 个”难找的事实”考验 web agent。截至 2026 年 5 月,GPT-5.5 Pro 以 90.1% 领跑,比第二名 GPT-5.5 标准版(84.4%)高 5.7 pp。DeepSeek-V4-Pro-Max 以 83.4% 排第三,是开源 / 准开源阵营第一。本文给出 21 模型的分数、单题成本、推荐使用场景。

一、BrowseComp 到底测什么

BrowseComp 是 OpenAI 在 2026 年 1 月推出的 web 浏览基准,1266 道题,覆盖学术、商业、法律、娱乐等多个领域。每道题的特征是:

  1. 答案是单一实体或事实(人名、年份、化合物名称等)
  2. 不能通过单次搜索找到——必须组合多个网页、多轮推理
  3. 答案存在但难以触及——典型路径需要 8-15 步浏览

例如一道样题:

“1998 年某位美国数学家在加州大学伯克利分校做了一次关于代数几何的演讲,该演讲后来被引用在 2003 年发表的某篇 PNAS 论文中。这位数学家在 2010 年获得的最高奖项是什么?”

要回答这种题,agent 必须:

这比”帮我订机票”难太多。BrowseComp 的核心评估的是信息坚持性(persistence)和网页导航创造力(creativity)。

二、2026 年 5 月榜单

排名模型 / AgentBrowseComp 分数厂商类型
1GPT-5.5 Pro90.1%OpenAI闭源
2GPT-5.4 Pro89.3%OpenAI闭源
3Opus 4.7 + Computer Use86.7%Anthropic闭源
4GPT-5.584.4%OpenAI闭源
5DeepSeek-V4-Pro-Max83.4%DeepSeek准开源
6Gemini 3 Pro Deep Research82.1%Google闭源
7Opus 4.679.3%Anthropic闭源
8Browser Use Cloud (Opus 4.7)78.0%Browser Use服务
9Sonnet 4.675.2%Anthropic闭源
10Qwen3.6-VL-Plus71.4%阿里闭源
11Manus AI Agent v370.8%Butterfly服务
12GPT-5 mini68.5%OpenAI闭源
13Grok 4.366.9%xAI闭源
14Qwen3.6 Plus65.2%阿里闭源
15DeepSeek-V462.3%DeepSeek开源
16Mistral Large 358.7%Mistral闭源
17Llama 4 Maverick54.1%Meta开源
18Skyvern (Qwen3.6 32B 后端)47.8%Skyvern开源
19browser-use (Qwen3.6 32B)45.2%open-source开源
20Llama 4 Scout38.6%Meta开源
21Qwen3 8B + browser-use22.4%开源开源

三、四个层级,怎么选

我把 21 个模型分成四个清晰层级:

S 级(>85%):研究级深挖

GPT-5.5 Pro、GPT-5.4 Pro、Opus 4.7 + Computer Use。适合学术研究、深度调研、新闻线索追溯。成本 1-3 美元/题。

A 级(75-85%):商业生产可用

GPT-5.5、DeepSeek-V4-Pro-Max、Gemini 3 Pro Deep Research、Opus 4.6。适合产品化的 deep research feature。成本 0.3-1 美元/题。DeepSeek-V4-Pro-Max 是 A 级里性价比最高的——比 GPT-5.5 便宜 70%,分数只低 1 个点。

B 级(60-75%):日常 agent 工作流

Sonnet 4.6、Qwen3.6-VL-Plus、Manus、GPT-5 mini、Grok 4.3、Qwen3.6 Plus。适合知识库检索 + 简单网页操作。成本 0.05-0.3 美元/题。

C 级(<60%):实验或受限环境

Llama 4、本地 32B 模型 + browser-use。准确率不够稳定,但部署成本最低,适合内网/合规严苛场景。

四、单题成本与延迟实测

我用 2026 年 5 月 13 日的官方价格 + 平均步数 12 步做计算:

模型平均步数单题输入 token单题输出 token单题成本
GPT-5.5 Pro895K12K$2.80
Opus 4.7 + CU11120K15K$1.98
DeepSeek-V4-Pro-Max13105K14K$0.42
Qwen3.6 Plus15135K18K$0.18
本地 Qwen3.6 32B21180K25K~$0.01(电费)

性价比最高的两个组合:

  1. DeepSeek-V4-Pro-Max(83.4%、$0.42/题)—— 性能仅次于 GPT-5.5 Pro 6.7 个点,但成本只有 1/7。
  2. Qwen3.6 Plus + 自建 agent(65.2%、$0.18/题)—— 中等准确率,成本极低。

五、Agent 框架横向

模型只是一半,agent 框架是另一半。同样的模型在不同框架下分数差异可达 10-15 个点:

框架支持模型在 Opus 4.7 上的 BrowseComp
OpenAI Computer UseGPT 系列90.1%
Anthropic Computer UseAnthropic 系86.7%
Browser Use Cloud任意78.0%
browser-use (OSS)任意70.5%
Skyvern任意65.2%
LangChain WebAgent任意58.0%

闭源厂商的”原生 Computer Use”领先,但 Browser Use Cloud 这种第三方服务也已经追到 78% 这个量级。开源 browser-use 在 70% 量级也已经相当能打。

六、什么时候 web agent 还是不靠谱

即使是 90% 的 GPT-5.5 Pro,仍有 10% 失败率,且失败模式有规律:

生产中我会用一个简单 fallback:自动检测失败模式 → 切换到 vision-language 路径或显式调用专业爬虫。

七、选型推荐

场景推荐组合月成本(10K 查询)
高端研究助手GPT-5.5 Pro$28,000
产品级 deep researchDeepSeek-V4-Pro-Max$4,200
内部知识 agentOpus 4.6 + Browser Use Cloud$7,900
大批量 lead 调研Qwen3.6 Plus + browser-use$1,800
合规内网部署本地 Qwen3.6 32B + browser-use$200(GPU 折旧)

八、未来 3-6 月的看点

总结

BrowseComp 是目前最严苛的 web agent 评测之一,2026 年 5 月的榜单告诉我们:闭源依然领先,但开源已经追到 6-7 个点以内;生产场景的最优解几乎都不是榜首模型,而是性价比第二梯队 + 优秀框架的组合。建议每个用 web agent 的团队都跑一遍自己的小型评测集,把”BrowseComp × 0.7”作为基线参考。

Frequently asked questions

BrowseComp 与 WebArena 评测有什么不同?
WebArena 测试预定义任务集(订票、购物、表单),更像 RPA。BrowseComp 测试'信息深挖'能力——需要 agent 持续浏览找到难以发现的实体或事实,无预设路径。BrowseComp 更接近真实研究场景,难度也更高。
为什么 GPT-5.5 Pro 比 GPT-5.5 标准版高这么多?
Pro 版的核心差异是允许多次内部推理和工具调用并行展开。BrowseComp 题目平均需要 8-15 步浏览,多分支并行展开比单链搜索效率高 40-60%,最终决定了 5.7 个百分点的差距。
开源模型中哪个最适合 web agent 场景?
目前 DeepSeek-V4-Pro-Max(83.4%)领先开源阵营,Qwen3.6-VL-Plus(约 71%)紧随其后。预算更紧的可以选 Qwen3.6 Plus + browser-use 框架的组合,约 65%,成本只有 DeepSeek 的 1/4。
本地部署能跑 BrowseComp 评测吗?
可以。开源工具 browser-use 与 Skyvern 都提供 BrowseComp 评测脚本。本地部署 Qwen3.6 32B + browser-use,单题成本约 0 元(自有电力),但分数约 45%,比 API 低 20-25 个点,适合内网安全要求高的场景。
BrowseComp 分数对实际产品意义有多大?
适合作为相对排序而非绝对预测。生产场景中网页结构、域名信任度、反爬机制都会显著影响实际成功率。建议把 BrowseComp 分数 × 0.7 作为生产基线,再用自己业务的 50 条样例做最终校验。
// next.txt ›

Some outbound links in this post are affiliate links — see disclosure.