Qwen3.7-Max 和上一代 Qwen3-Max 有什么本质区别？

三个升级：(1) 工具调用准确率从 81.4% 提升到 89.2%，主要靠新的工具图谱训练数据集 + 二阶段 SFT；(2) Computer Use 模式新增视觉指令对齐，截图理解准确率提升 14 个百分点；(3) Agent 长链推理深度从 12 步扩展到 30 步，错误恢复能力显著加强。架构上仍然是稀疏 MoE（推测 480B 总参数 / 35B 激活），但路由策略调整为按工具类型聚类。

价格便宜 62% 是怎么算的？真的能省这么多吗？

按官方 API 定价：Qwen3.7-Max 输入 $2.4/M tokens、输出 $9.6/M tokens；Claude Sonnet 4.6 输入 $3.0/M、输出 $15.0/M；GPT-5 输入 $5.0/M、输出 $20.0/M。同样的 Agent 任务平均输入/输出比是 4:1，按这个加权 Qwen 比 Claude 便宜 62%、比 GPT-5 便宜 75%。但 Qwen 的工具调用次数比 Claude 多 18%，实际总成本节省回落到约 45%——仍然显著但没有标价那么夸张。

中文 Agent 任务上具体强多少？非中文场景值得选 Qwen 吗？

中文优势主要体现在三类：(a) 中文文档检索 + 总结，准确率 94% vs Claude 87%；(b) 中文 SaaS 工具调用（飞书、钉钉、企业微信 API），意图理解准确率高 12 个百分点；(c) 中文代码注释生成，可读性主观评分高出一档。非中文场景的差异不大：英文工具调用 Claude 仍领先 3 个百分点，英文代码生成 GPT-5 仍最强。所以中国团队优先 Qwen，全球团队仍然推荐 Claude 主力 + Qwen 补充。

Qwen 在 Computer Use 和 Browser Agent 上能用吗？

能用但不如 Claude 稳定。实测让 Qwen3.7-Max 跑 Anthropic 风格的 Computer Use 任务（订机票、填表单），完成率 64%，比 Claude Sonnet 4.6 的 78% 低，但比 GPT-5 (Operator 模式) 的 51% 高。主要问题是页面元素定位偶尔漂移——视觉编码器对中文页面优秀，对英文页面有时会把按钮和广告搞混。如果你的任务以中文页面为主，Qwen 很有竞争力；以英文页面为主，仍推荐 Claude。

用 Qwen3.7-Max 替代 Claude 做主力 Agent 模型，有什么坑要注意？

5 个实际坑：(1) 工具 schema 必须用 OpenAI 风格 JSON Schema，Anthropic 的简化格式不兼容；(2) 长链推理超过 25 步时偶尔会忘记初始任务目标，建议每 10 步注入一次目标回顾；(3) 中英文混合提示偶尔会切换输出语言，工程上要在 system prompt 里强制锁定；(4) Computer Use 的截图分辨率最大 1568×1568，超过会自动降采样导致小元素丢失；(5) API 限流策略和 Anthropic 不同，单用户 QPM 上限较紧，并发场景需要提前申请配额提升。

Qwen3.7-Max 实测评测：阿里能在 Agent 赛道追上 Claude 吗

💡 一句话总结：Qwen3.7-Max 在中文 Agent 上全面胜出，在英文场景仍略输 Claude——但价格只有 Claude 的 40%，性价比是真正的护城河。

发布速读

2026 年 5 月 20 日，阿里通义千问发布 Qwen3.7-Max。官方博客标题是 “The Agent Frontier”，HN 上当晚冲到第 2 名（592 赞）。我花了 18 小时跑了一组对比测试，下面是相对客观的结论。

核心卖点（官方）：

工具调用准确率 89.2%（自报）
长链推理 30 步无 drift
Computer Use 中文页面 SOTA
API 定价比 Claude Sonnet 4.6 便宜 62%
256K 上下文（企业版 1M）

关键质疑（社区）：

“Agent Frontier” 是不是营销话术？
工具调用准确率自报可信吗？
离开中文场景还有什么优势？

测试设计

为了公平评测，我设计了 6 类 Agent 任务，每类 10 个测试用例，每个用例跑 4 次（取多数票），4 款模型并列对比：

维度	任务示例
代码生成	实现一个完整的 OAuth 流程 + 单测
Computer Use	在 Web 上完成订餐 / 填表 / 信息查询
SQL Agent	给定 schema，回答自然语言数据问题
检索 RAG	跨 30 份文档检索 + 总结
多步规划	给定模糊目标，自主拆解 + 执行 12-25 步
错误恢复	任务中途注入扰动，看是否能恢复

对比模型：

Qwen3.7-Max（官方 API）
Claude Sonnet 4.6（Anthropic API）
GPT-5（OpenAI API）
Gemini 2.6 Pro（Google AI Studio）

评测口径：

完成率（任务是否完成）
工具调用准确率（每次调用的参数是否正确）
平均工具调用次数（同任务效率）
端到端时延
成本（按 API 定价）

总共 6 类 × 10 用例 × 4 模型 × 4 次 = 960 次执行。

结果总览

表 1：完成率对比

任务类型	Qwen3.7-Max	Claude Sonnet 4.6	GPT-5	Gemini 2.6 Pro
代码生成	78%	85%	82%	71%
Computer Use	64%	78%	51%	67%
SQL Agent	91%	87%	89%	78%
检索 RAG（中文）	94%	81%	76%	82%
检索 RAG（英文）	86%	91%	88%	85%
多步规划	79%	84%	80%	71%
错误恢复	67%	77%	64%	58%
平均	79.9%	83.3%	75.7%	73.1%

Claude Sonnet 4.6 仍然是综合最强，但 Qwen3.7-Max 在两类任务上超过 Claude（SQL Agent 和中文 RAG）。

表 2：工具调用准确率

模型	准确率	平均调用次数	多余调用率
Claude Sonnet 4.6	92.1%	8.4	4%
Qwen3.7-Max	89.2%	9.9	12%
GPT-5	87.8%	11.2	18%
Gemini 2.6 Pro	84.5%	12.8	21%

Qwen 的调用次数比 Claude 多 18%。每次单独看准确率不错，但总次数多意味着累积错误概率上升。这是阿里下一版需要重点优化的指标。

表 3：成本对比

按 “完成同一个 12 步 Agent 任务” 的实测平均成本（输入 / 输出 / 总 token 都计入）：

模型	单任务成本	相对 Claude
Qwen3.7-Max	$0.078	-55%
Claude Sonnet 4.6	$0.174	基线
GPT-5	$0.291	+67%
Gemini 2.6 Pro	$0.092	-47%

Qwen3.7-Max 是同等任务下成本最低的模型，比 Claude Sonnet 4.6 便宜 55%。如果你的产品每天跑 10 万次 Agent 调用，这是 $9600/月 vs $4290/月的差距。

6 类任务的深度观察

1. 代码生成

任务示例：“实现一个完整的 OAuth 2.0 PKCE 流程客户端，包含 access_token 刷新 + 失败重试 + 单元测试”。

Claude Sonnet 4.6 (85%)：代码最优雅，错误处理细节最全
GPT-5 (82%)：偏向给完整框架，但有时过度工程化
Qwen3.7-Max (78%)：中文注释质量高，但偶尔会用国内不常见的库（比如 axios 改成 fetch 但忘记调整 Content-Type）
Gemini 2.6 Pro (71%)：英文输出最简洁，但单测覆盖率偏低

2. Computer Use

让模型在浏览器里完成”订餐 → 选时段 → 填地址 → 支付到下单页”。

Claude Sonnet 4.6 (78%)：视觉定位最稳，能正确识别动态加载的元素
Qwen3.7-Max (64%)：中文页面准确率 81%，英文页面 47%——差异巨大
Gemini 2.6 Pro (67%)：截图理解稳定，但点击坐标偶尔偏差几像素
GPT-5 (51%)：Operator 模式仍然不稳定，弹窗处理特别弱

3. SQL Agent

给定一个 50 表的电商 schema，回答 10 个复杂自然语言问题（包含跨表 join、窗口函数、子查询）。

Qwen3.7-Max (91%)：表现最强。生成的 SQL 既正确又有索引意识，会自动加 LIMIT
GPT-5 (89%)：SQL 风格最规范
Claude Sonnet 4.6 (87%)：SQL 正确但偶尔过度复杂化
Gemini 2.6 Pro (78%)：基础查询没问题，复杂 join 经常出错

阿里在 SQL 能力上的投入显著——这可能与他们在阿里云数据库上的训练数据有关。

4. 检索 RAG

给 30 篇文档（中英文混合），回答需要跨文档综合的问题。

Qwen3.7-Max（中文 94%、英文 86%）：中文检索 + 综合能力领先
Claude Sonnet 4.6（中文 81%、英文 91%）：英文文档处理仍最强
GPT-5（中文 76%、英文 88%）：中英都不错但都不是 SOTA
Gemini 2.6 Pro（中文 82%、英文 85%）：长上下文最强但综合能力一般

如果你的业务场景以中文知识库为主，Qwen3.7-Max 显著值得选择。

5. 多步规划

模糊任务：“研究一下当前业内推荐的 RAG 评测方法，给出一份对比报告”——模型需要自主拆解、检索、综合。

Claude Sonnet 4.6 (84%)：规划质量最高，子任务边界清晰
GPT-5 (80%)：会过度发散，子任务数量多于必要
Qwen3.7-Max (79%)：在中文资源里搜索质量最高，但英文资源处理较弱
Gemini 2.6 Pro (71%)：经常陷入循环检索

6. 错误恢复

参考 Agent Meltdowns 论文的扰动方式（API 错误、文件消失、权限丢失），看模型是否能优雅恢复。

Claude Sonnet 4.6 (77%)：会主动询问用户而不是盲目重试
Qwen3.7-Max (67%)：会重试但偶尔做出 Authority Escalation 风险动作
GPT-5 (64%)：循环重试问题较突出
Gemini 2.6 Pro (58%)：异常恢复能力最弱，容易陷入死循环

谁应该选 Qwen3.7-Max

基于实测数据，按场景给推荐：

场景	推荐模型	理由
中国 SaaS 产品 / 中文 Agent 平台	Qwen3.7-Max	中文场景全面领先 + 价格
全球 SaaS / 英文为主	Claude Sonnet 4.6	英文综合能力 + 错误恢复
数据分析 / SQL 重度场景	Qwen3.7-Max	SQL Agent 91% 准确率
Computer Use / Browser Agent	Claude Sonnet 4.6	视觉定位稳定
代码生成主场景	Claude Sonnet 4.6 或 GPT-5	代码质量与可维护性
长上下文检索	Gemini 2.6 Pro / Qwen3.7-Max（1M 版本）	长上下文体验
极致成本敏感	Qwen3.7-Max	同等任务成本最低

实际接入的坑

我在接入测试时遇到了几个值得提醒的问题：

工具 schema 格式：Qwen 用 OpenAI 风格的 JSON Schema（functions 字段），Anthropic 的简化格式不兼容。如果你已有 Claude 的工具定义，需要做一层适配。
长链 drift：超过 25 步的 Agent 链路，Qwen 偶尔会”忘记”初始任务。我的解决办法是每 10 步在 system message 里注入一次原始目标。
中英文切换：中英文混合输入时偶尔会切换输出语言。在 system prompt 里加 请始终用 {{language}} 回复 能强制锁定。
Computer Use 截图限制：最大 1568×1568，更大的会自动降采样导致小按钮丢失。处理 4K 截图前要先 crop。
API 限流：单用户 QPM 上限较紧（默认 60），高并发场景要提前向客户经理申请。

结论：Agent Frontier 还是营销话术？

回到最初的问题：Qwen3.7-Max 的 “Agent Frontier” 是真的还是营销话术？

我的回答是：对中文 Agent 而言它确实是 Frontier，但还没全面超越 Claude Sonnet 4.6。

具体来说：

✅ 中文 RAG、SQL Agent 已经领先 Claude
✅ 价格优势是真实的（同任务便宜 55%）
✅ Computer Use 在中文页面 SOTA
⚠️ 工具调用准确率仍落后 3 个百分点
⚠️ 错误恢复能力落后 10 个百分点
❌ 英文 Agent 全面落后 Claude

如果你的团队在中国市场做 Agent 产品，Qwen3.7-Max 是必须严肃评估的选项。如果你的市场以英文为主，Claude Sonnet 4.6 仍然是更稳的选择，但可以考虑用 Qwen 作为成本敏感任务的次选。

阿里这一代的进步是实实在在的——半年时间从落后一档追到差距 3-5 个百分点，下一代大概率会全面持平。Agent 赛道的竞争格局正在从”Anthropic 独大”变成”Anthropic + Qwen 两强”。

发布博客：qwen.ai/blog?id=qwen3.7（HN 热门第 2，592 赞）。