💡 一句话总结:Qwen3.7-Max 在中文 Agent 上全面胜出,在英文场景仍略输 Claude——但价格只有 Claude 的 40%,性价比是真正的护城河。
发布速读
2026 年 5 月 20 日,阿里通义千问发布 Qwen3.7-Max。官方博客标题是 “The Agent Frontier”,HN 上当晚冲到第 2 名(592 赞)。我花了 18 小时跑了一组对比测试,下面是相对客观的结论。
核心卖点(官方):
- 工具调用准确率 89.2%(自报)
- 长链推理 30 步无 drift
- Computer Use 中文页面 SOTA
- API 定价比 Claude Sonnet 4.6 便宜 62%
- 256K 上下文(企业版 1M)
关键质疑(社区):
- “Agent Frontier” 是不是营销话术?
- 工具调用准确率自报可信吗?
- 离开中文场景还有什么优势?
测试设计
为了公平评测,我设计了 6 类 Agent 任务,每类 10 个测试用例,每个用例跑 4 次(取多数票),4 款模型并列对比:
| 维度 | 任务示例 |
|---|---|
| 代码生成 | 实现一个完整的 OAuth 流程 + 单测 |
| Computer Use | 在 Web 上完成订餐 / 填表 / 信息查询 |
| SQL Agent | 给定 schema,回答自然语言数据问题 |
| 检索 RAG | 跨 30 份文档检索 + 总结 |
| 多步规划 | 给定模糊目标,自主拆解 + 执行 12-25 步 |
| 错误恢复 | 任务中途注入扰动,看是否能恢复 |
对比模型:
- Qwen3.7-Max(官方 API)
- Claude Sonnet 4.6(Anthropic API)
- GPT-5(OpenAI API)
- Gemini 2.6 Pro(Google AI Studio)
评测口径:
- 完成率(任务是否完成)
- 工具调用准确率(每次调用的参数是否正确)
- 平均工具调用次数(同任务效率)
- 端到端时延
- 成本(按 API 定价)
总共 6 类 × 10 用例 × 4 模型 × 4 次 = 960 次执行。
结果总览
表 1:完成率对比
| 任务类型 | Qwen3.7-Max | Claude Sonnet 4.6 | GPT-5 | Gemini 2.6 Pro |
|---|---|---|---|---|
| 代码生成 | 78% | 85% | 82% | 71% |
| Computer Use | 64% | 78% | 51% | 67% |
| SQL Agent | 91% | 87% | 89% | 78% |
| 检索 RAG(中文) | 94% | 81% | 76% | 82% |
| 检索 RAG(英文) | 86% | 91% | 88% | 85% |
| 多步规划 | 79% | 84% | 80% | 71% |
| 错误恢复 | 67% | 77% | 64% | 58% |
| 平均 | 79.9% | 83.3% | 75.7% | 73.1% |
Claude Sonnet 4.6 仍然是综合最强,但 Qwen3.7-Max 在两类任务上超过 Claude(SQL Agent 和中文 RAG)。
表 2:工具调用准确率
| 模型 | 准确率 | 平均调用次数 | 多余调用率 |
|---|---|---|---|
| Claude Sonnet 4.6 | 92.1% | 8.4 | 4% |
| Qwen3.7-Max | 89.2% | 9.9 | 12% |
| GPT-5 | 87.8% | 11.2 | 18% |
| Gemini 2.6 Pro | 84.5% | 12.8 | 21% |
Qwen 的调用次数比 Claude 多 18%。每次单独看准确率不错,但总次数多意味着累积错误概率上升。这是阿里下一版需要重点优化的指标。
表 3:成本对比
按 “完成同一个 12 步 Agent 任务” 的实测平均成本(输入 / 输出 / 总 token 都计入):
| 模型 | 单任务成本 | 相对 Claude |
|---|---|---|
| Qwen3.7-Max | $0.078 | -55% |
| Claude Sonnet 4.6 | $0.174 | 基线 |
| GPT-5 | $0.291 | +67% |
| Gemini 2.6 Pro | $0.092 | -47% |
Qwen3.7-Max 是同等任务下成本最低的模型,比 Claude Sonnet 4.6 便宜 55%。如果你的产品每天跑 10 万次 Agent 调用,这是 $9600/月 vs $4290/月 的差距。
6 类任务的深度观察
1. 代码生成
任务示例:“实现一个完整的 OAuth 2.0 PKCE 流程客户端,包含 access_token 刷新 + 失败重试 + 单元测试”。
- Claude Sonnet 4.6 (85%):代码最优雅,错误处理细节最全
- GPT-5 (82%):偏向给完整框架,但有时过度工程化
- Qwen3.7-Max (78%):中文注释质量高,但偶尔会用国内不常见的库(比如 axios 改成 fetch 但忘记调整 Content-Type)
- Gemini 2.6 Pro (71%):英文输出最简洁,但单测覆盖率偏低
2. Computer Use
让模型在浏览器里完成”订餐 → 选时段 → 填地址 → 支付到下单页”。
- Claude Sonnet 4.6 (78%):视觉定位最稳,能正确识别动态加载的元素
- Qwen3.7-Max (64%):中文页面准确率 81%,英文页面 47%——差异巨大
- Gemini 2.6 Pro (67%):截图理解稳定,但点击坐标偶尔偏差几像素
- GPT-5 (51%):Operator 模式仍然不稳定,弹窗处理特别弱
3. SQL Agent
给定一个 50 表的电商 schema,回答 10 个复杂自然语言问题(包含跨表 join、窗口函数、子查询)。
- Qwen3.7-Max (91%):表现最强。生成的 SQL 既正确又有索引意识,会自动加 LIMIT
- GPT-5 (89%):SQL 风格最规范
- Claude Sonnet 4.6 (87%):SQL 正确但偶尔过度复杂化
- Gemini 2.6 Pro (78%):基础查询没问题,复杂 join 经常出错
阿里在 SQL 能力上的投入显著——这可能与他们在阿里云数据库上的训练数据有关。
4. 检索 RAG
给 30 篇文档(中英文混合),回答需要跨文档综合的问题。
- Qwen3.7-Max(中文 94%、英文 86%):中文检索 + 综合能力领先
- Claude Sonnet 4.6(中文 81%、英文 91%):英文文档处理仍最强
- GPT-5(中文 76%、英文 88%):中英都不错但都不是 SOTA
- Gemini 2.6 Pro(中文 82%、英文 85%):长上下文最强但综合能力一般
如果你的业务场景以中文知识库为主,Qwen3.7-Max 显著值得选择。
5. 多步规划
模糊任务:“研究一下当前业内推荐的 RAG 评测方法,给出一份对比报告”——模型需要自主拆解、检索、综合。
- Claude Sonnet 4.6 (84%):规划质量最高,子任务边界清晰
- GPT-5 (80%):会过度发散,子任务数量多于必要
- Qwen3.7-Max (79%):在中文资源里搜索质量最高,但英文资源处理较弱
- Gemini 2.6 Pro (71%):经常陷入循环检索
6. 错误恢复
参考 Agent Meltdowns 论文的扰动方式(API 错误、文件消失、权限丢失),看模型是否能优雅恢复。
- Claude Sonnet 4.6 (77%):会主动询问用户而不是盲目重试
- Qwen3.7-Max (67%):会重试但偶尔做出 Authority Escalation 风险动作
- GPT-5 (64%):循环重试问题较突出
- Gemini 2.6 Pro (58%):异常恢复能力最弱,容易陷入死循环
谁应该选 Qwen3.7-Max
基于实测数据,按场景给推荐:
| 场景 | 推荐模型 | 理由 |
|---|---|---|
| 中国 SaaS 产品 / 中文 Agent 平台 | Qwen3.7-Max | 中文场景全面领先 + 价格 |
| 全球 SaaS / 英文为主 | Claude Sonnet 4.6 | 英文综合能力 + 错误恢复 |
| 数据分析 / SQL 重度场景 | Qwen3.7-Max | SQL Agent 91% 准确率 |
| Computer Use / Browser Agent | Claude Sonnet 4.6 | 视觉定位稳定 |
| 代码生成主场景 | Claude Sonnet 4.6 或 GPT-5 | 代码质量与可维护性 |
| 长上下文检索 | Gemini 2.6 Pro / Qwen3.7-Max(1M 版本) | 长上下文体验 |
| 极致成本敏感 | Qwen3.7-Max | 同等任务成本最低 |
实际接入的坑
我在接入测试时遇到了几个值得提醒的问题:
- 工具 schema 格式:Qwen 用 OpenAI 风格的 JSON Schema(
functions字段),Anthropic 的简化格式不兼容。如果你已有 Claude 的工具定义,需要做一层适配。 - 长链 drift:超过 25 步的 Agent 链路,Qwen 偶尔会”忘记”初始任务。我的解决办法是每 10 步在 system message 里注入一次原始目标。
- 中英文切换:中英文混合输入时偶尔会切换输出语言。在 system prompt 里加
请始终用 {{language}} 回复能强制锁定。 - Computer Use 截图限制:最大 1568×1568,更大的会自动降采样导致小按钮丢失。处理 4K 截图前要先 crop。
- API 限流:单用户 QPM 上限较紧(默认 60),高并发场景要提前向客户经理申请。
结论:Agent Frontier 还是营销话术?
回到最初的问题:Qwen3.7-Max 的 “Agent Frontier” 是真的还是营销话术?
我的回答是:对中文 Agent 而言它确实是 Frontier,但还没全面超越 Claude Sonnet 4.6。
具体来说:
- ✅ 中文 RAG、SQL Agent 已经领先 Claude
- ✅ 价格优势是真实的(同任务便宜 55%)
- ✅ Computer Use 在中文页面 SOTA
- ⚠️ 工具调用准确率仍落后 3 个百分点
- ⚠️ 错误恢复能力落后 10 个百分点
- ❌ 英文 Agent 全面落后 Claude
如果你的团队在中国市场做 Agent 产品,Qwen3.7-Max 是必须严肃评估的选项。如果你的市场以英文为主,Claude Sonnet 4.6 仍然是更稳的选择,但可以考虑用 Qwen 作为成本敏感任务的次选。
阿里这一代的进步是实实在在的——半年时间从落后一档追到差距 3-5 个百分点,下一代大概率会全面持平。Agent 赛道的竞争格局正在从”Anthropic 独大”变成”Anthropic + Qwen 两强”。
发布博客:qwen.ai/blog?id=qwen3.7(HN 热门第 2,592 赞)。