Tools

Qwen3.7-Max 实测评测:阿里能在 Agent 赛道追上 Claude 吗

8 min read ·

💡 一句话总结:Qwen3.7-Max 在中文 Agent 上全面胜出,在英文场景仍略输 Claude——但价格只有 Claude 的 40%,性价比是真正的护城河。

发布速读

2026 年 5 月 20 日,阿里通义千问发布 Qwen3.7-Max。官方博客标题是 “The Agent Frontier”,HN 上当晚冲到第 2 名(592 赞)。我花了 18 小时跑了一组对比测试,下面是相对客观的结论。

核心卖点(官方):

关键质疑(社区):

测试设计

为了公平评测,我设计了 6 类 Agent 任务,每类 10 个测试用例,每个用例跑 4 次(取多数票),4 款模型并列对比:

维度任务示例
代码生成实现一个完整的 OAuth 流程 + 单测
Computer Use在 Web 上完成订餐 / 填表 / 信息查询
SQL Agent给定 schema,回答自然语言数据问题
检索 RAG跨 30 份文档检索 + 总结
多步规划给定模糊目标,自主拆解 + 执行 12-25 步
错误恢复任务中途注入扰动,看是否能恢复

对比模型

评测口径

总共 6 类 × 10 用例 × 4 模型 × 4 次 = 960 次执行。

结果总览

表 1:完成率对比

任务类型Qwen3.7-MaxClaude Sonnet 4.6GPT-5Gemini 2.6 Pro
代码生成78%85%82%71%
Computer Use64%78%51%67%
SQL Agent91%87%89%78%
检索 RAG(中文)94%81%76%82%
检索 RAG(英文)86%91%88%85%
多步规划79%84%80%71%
错误恢复67%77%64%58%
平均79.9%83.3%75.7%73.1%

Claude Sonnet 4.6 仍然是综合最强,但 Qwen3.7-Max 在两类任务上超过 Claude(SQL Agent 和中文 RAG)。

表 2:工具调用准确率

模型准确率平均调用次数多余调用率
Claude Sonnet 4.692.1%8.44%
Qwen3.7-Max89.2%9.912%
GPT-587.8%11.218%
Gemini 2.6 Pro84.5%12.821%

Qwen 的调用次数比 Claude 多 18%。每次单独看准确率不错,但总次数多意味着累积错误概率上升。这是阿里下一版需要重点优化的指标。

表 3:成本对比

按 “完成同一个 12 步 Agent 任务” 的实测平均成本(输入 / 输出 / 总 token 都计入):

模型单任务成本相对 Claude
Qwen3.7-Max$0.078-55%
Claude Sonnet 4.6$0.174基线
GPT-5$0.291+67%
Gemini 2.6 Pro$0.092-47%

Qwen3.7-Max 是同等任务下成本最低的模型,比 Claude Sonnet 4.6 便宜 55%。如果你的产品每天跑 10 万次 Agent 调用,这是 $9600/月 vs $4290/月 的差距。

6 类任务的深度观察

1. 代码生成

任务示例:“实现一个完整的 OAuth 2.0 PKCE 流程客户端,包含 access_token 刷新 + 失败重试 + 单元测试”。

2. Computer Use

让模型在浏览器里完成”订餐 → 选时段 → 填地址 → 支付到下单页”。

3. SQL Agent

给定一个 50 表的电商 schema,回答 10 个复杂自然语言问题(包含跨表 join、窗口函数、子查询)。

阿里在 SQL 能力上的投入显著——这可能与他们在阿里云数据库上的训练数据有关。

4. 检索 RAG

给 30 篇文档(中英文混合),回答需要跨文档综合的问题。

如果你的业务场景以中文知识库为主,Qwen3.7-Max 显著值得选择。

5. 多步规划

模糊任务:“研究一下当前业内推荐的 RAG 评测方法,给出一份对比报告”——模型需要自主拆解、检索、综合。

6. 错误恢复

参考 Agent Meltdowns 论文的扰动方式(API 错误、文件消失、权限丢失),看模型是否能优雅恢复。

谁应该选 Qwen3.7-Max

基于实测数据,按场景给推荐:

场景推荐模型理由
中国 SaaS 产品 / 中文 Agent 平台Qwen3.7-Max中文场景全面领先 + 价格
全球 SaaS / 英文为主Claude Sonnet 4.6英文综合能力 + 错误恢复
数据分析 / SQL 重度场景Qwen3.7-MaxSQL Agent 91% 准确率
Computer Use / Browser AgentClaude Sonnet 4.6视觉定位稳定
代码生成主场景Claude Sonnet 4.6 或 GPT-5代码质量与可维护性
长上下文检索Gemini 2.6 Pro / Qwen3.7-Max(1M 版本)长上下文体验
极致成本敏感Qwen3.7-Max同等任务成本最低

实际接入的坑

我在接入测试时遇到了几个值得提醒的问题:

  1. 工具 schema 格式:Qwen 用 OpenAI 风格的 JSON Schema(functions 字段),Anthropic 的简化格式不兼容。如果你已有 Claude 的工具定义,需要做一层适配。
  2. 长链 drift:超过 25 步的 Agent 链路,Qwen 偶尔会”忘记”初始任务。我的解决办法是每 10 步在 system message 里注入一次原始目标。
  3. 中英文切换:中英文混合输入时偶尔会切换输出语言。在 system prompt 里加 请始终用 {{language}} 回复 能强制锁定。
  4. Computer Use 截图限制:最大 1568×1568,更大的会自动降采样导致小按钮丢失。处理 4K 截图前要先 crop。
  5. API 限流:单用户 QPM 上限较紧(默认 60),高并发场景要提前向客户经理申请。

结论:Agent Frontier 还是营销话术?

回到最初的问题:Qwen3.7-Max 的 “Agent Frontier” 是真的还是营销话术?

我的回答是:对中文 Agent 而言它确实是 Frontier,但还没全面超越 Claude Sonnet 4.6

具体来说:

如果你的团队在中国市场做 Agent 产品,Qwen3.7-Max 是必须严肃评估的选项。如果你的市场以英文为主,Claude Sonnet 4.6 仍然是更稳的选择,但可以考虑用 Qwen 作为成本敏感任务的次选。

阿里这一代的进步是实实在在的——半年时间从落后一档追到差距 3-5 个百分点,下一代大概率会全面持平。Agent 赛道的竞争格局正在从”Anthropic 独大”变成”Anthropic + Qwen 两强”。

发布博客:qwen.ai/blog?id=qwen3.7(HN 热门第 2,592 赞)。

Frequently asked questions

Qwen3.7-Max 和上一代 Qwen3-Max 有什么本质区别?
三个升级:(1) 工具调用准确率从 81.4% 提升到 89.2%,主要靠新的工具图谱训练数据集 + 二阶段 SFT;(2) Computer Use 模式新增视觉指令对齐,截图理解准确率提升 14 个百分点;(3) Agent 长链推理深度从 12 步扩展到 30 步,错误恢复能力显著加强。架构上仍然是稀疏 MoE(推测 480B 总参数 / 35B 激活),但路由策略调整为按工具类型聚类。
价格便宜 62% 是怎么算的?真的能省这么多吗?
按官方 API 定价:Qwen3.7-Max 输入 $2.4/M tokens、输出 $9.6/M tokens;Claude Sonnet 4.6 输入 $3.0/M、输出 $15.0/M;GPT-5 输入 $5.0/M、输出 $20.0/M。同样的 Agent 任务平均输入/输出比是 4:1,按这个加权 Qwen 比 Claude 便宜 62%、比 GPT-5 便宜 75%。但 Qwen 的工具调用次数比 Claude 多 18%,实际总成本节省回落到约 45%——仍然显著但没有标价那么夸张。
中文 Agent 任务上具体强多少?非中文场景值得选 Qwen 吗?
中文优势主要体现在三类:(a) 中文文档检索 + 总结,准确率 94% vs Claude 87%;(b) 中文 SaaS 工具调用(飞书、钉钉、企业微信 API),意图理解准确率高 12 个百分点;(c) 中文代码注释生成,可读性主观评分高出一档。非中文场景的差异不大:英文工具调用 Claude 仍领先 3 个百分点,英文代码生成 GPT-5 仍最强。所以中国团队优先 Qwen,全球团队仍然推荐 Claude 主力 + Qwen 补充。
Qwen 在 Computer Use 和 Browser Agent 上能用吗?
能用但不如 Claude 稳定。实测让 Qwen3.7-Max 跑 Anthropic 风格的 Computer Use 任务(订机票、填表单),完成率 64%,比 Claude Sonnet 4.6 的 78% 低,但比 GPT-5 (Operator 模式) 的 51% 高。主要问题是页面元素定位偶尔漂移——视觉编码器对中文页面优秀,对英文页面有时会把按钮和广告搞混。如果你的任务以中文页面为主,Qwen 很有竞争力;以英文页面为主,仍推荐 Claude。
用 Qwen3.7-Max 替代 Claude 做主力 Agent 模型,有什么坑要注意?
5 个实际坑:(1) 工具 schema 必须用 OpenAI 风格 JSON Schema,Anthropic 的简化格式不兼容;(2) 长链推理超过 25 步时偶尔会忘记初始任务目标,建议每 10 步注入一次目标回顾;(3) 中英文混合提示偶尔会切换输出语言,工程上要在 system prompt 里强制锁定;(4) Computer Use 的截图分辨率最大 1568×1568,超过会自动降采样导致小元素丢失;(5) API 限流策略和 Anthropic 不同,单用户 QPM 上限较紧,并发场景需要提前申请配额提升。
// next.txt ›

Some outbound links in this post are affiliate links — see disclosure.