Dynamic Workflows 和普通的多次 Agent 调用有什么区别？

Dynamic Workflows 提供了确定性控制流（循环、条件、扇出），支持 pipeline 和 parallel 两种编排模式，子代理结果可以在脚本中组合处理，而普通调用是独立的请求-响应模式

1000 个子代理的限制在实际使用中够用吗？

对绝大多数场景远超需求。典型的代码审查工作流用 10-20 个子代理，大规模迁移可能用 50-100 个，1000 的上限是为了防止失控循环，正常使用不会触及

pipeline 和 parallel 应该怎么选？

默认用 pipeline，它不会在阶段之间设置屏障，item A 可以在 stage 3 而 item B 还在 stage 1。只有当后续阶段需要所有前置结果时（如去重、汇总）才用 parallel 设置屏障

Effort Modes 对 Dynamic Workflows 有影响吗？

有。Opus 4.8 默认 effort 为 high，每个子代理都会使用较多的思考 token。可以在 agent 调用中通过 model 参数切换为 Sonnet 来降低成本，对简单子任务效果差异不大

Dynamic Workflows 的脚本可以用 TypeScript 吗？

不可以，必须使用纯 JavaScript。脚本中不能使用类型注解、接口、泛型等 TypeScript 语法，也不能使用 Date.now 和 Math.random 等非确定性函数以确保可恢复性

Claude Opus 4.8 Dynamic Workflows 深度评测：千级子代理编排新范式

双料发布：模型与工具的协同进化

2026 年 5 月 28 日，Anthropic 同时发布了两样东西：Claude Opus 4.8 模型和 Claude Code 的 Dynamic Workflows 功能。这不是巧合——新模型的自我缺陷检测能力提升了 4 倍，而 Dynamic Workflows 的核心场景之一就是让多个 Agent 互相审查对方的输出。模型能力与工具形态同步演进，这在 AI 工具领域并不多见。

Opus 4.8 的定价与 4.7 持平（$5 input / $25 output per million tokens），但 SWE-bench Verified 从约 72% 跳升到了 88.6%。这意味着在相同价格下，解决实际软件工程问题的成功率提升了超过 16 个百分点。结合 Dynamic Workflows 的编排能力，单次任务能调动最多 1000 个子代理，16 个并发运行。

本文将从模型能力、API 设计、实战场景三个维度逐一拆解。

Opus 4.8 模型能力一览

先看硬数据。Opus 4.8 在多个基准上的表现：

基准测试	Opus 4.7	Opus 4.8	提升幅度
SWE-bench Verified	~72%	88.6%	+16.6pp
SWE-bench Pro	64.3%	69.2%	+4.9pp
自我缺陷检测	基准	4x	4 倍

几个值得注意的点：

SWE-bench Verified 88.6% 是目前公开模型中的最高分。这个基准测试要求模型根据 GitHub issue 描述生成正确的代码补丁，覆盖 Django、scikit-learn、matplotlib 等 12 个主流 Python 仓库。88.6% 意味着将近 9 成的真实 bug 可以被正确修复。

自我缺陷检测 4 倍提升才是 Dynamic Workflows 真正的底座。在多代理编排中，一个 Agent 生成代码，另一个 Agent 负责审查。如果审查 Agent 发现不了问题，整个流程就退化成了单 Agent 的串行执行。4 倍的检测能力意味着”对抗验证”模式终于可用了。

Effort Modes 是 Opus 4.8 的新特性。模型支持 low、medium、high 三档推理强度，默认 high。在 Dynamic Workflows 中，可以对不同子代理设置不同的 effort 级别——复杂的架构审查用 high，简单的格式检查用 low，兼顾质量和成本。

Extended Thinking：自适应思考

Opus 4.8 的 Extended Thinking 不是简单地”让模型想更久”。它是自适应的——模型会根据问题的复杂度自动调整思考深度。简单问题快速作答，复杂问题深入推理。这一点在 Dynamic Workflows 中尤为重要，因为 1000 个子代理中的大多数处理的是定义明确的子任务，不需要深度思考。

Dynamic Workflows 核心 API 解析

Dynamic Workflows 的脚本使用纯 JavaScript 编写，通过三个核心原语构建工作流。

agent()：子代理调用

agent() 是最基本的原语，它创建一个子代理来执行特定任务：

const result = await agent({
  prompt: "审查以下代码的安全性问题：" + codeSnippet,
  // 可选：指定模型、工具、输出格式
  model: "opus", // 默认使用当前模型
  tools: ["read", "grep", "glob"], // 限制可用工具
  outputSchema: {
    type: "object",
    properties: {
      issues: { type: "array" },
      severity: { type: "string", enum: ["low", "medium", "high", "critical"] }
    }
  }
});

关键设计：

每个子代理是独立的上下文，不共享对话历史
可通过 outputSchema 指定 JSON Schema 结构化输出
支持 model 参数切换模型（如用 Sonnet 处理简单任务降低成本）
支持 tools 参数限制子代理可用的工具集
支持 permissionMode 控制权限（默认继承父代理）

parallel()：并行执行（有屏障）

parallel() 同时启动多个任务，等待所有任务完成后才返回结果：

const [securityResult, perfResult, styleResult] = await parallel([
  agent({ prompt: "检查安全漏洞..." }),
  agent({ prompt: "分析性能瓶颈..." }),
  agent({ prompt: "审查代码风格..." })
]);

// 三个结果全部就绪后，才执行汇总
const summary = await agent({
  prompt: `综合以下三份审查报告生成最终结论：
    安全：${JSON.stringify(securityResult)}
    性能：${JSON.stringify(perfResult)}
    风格：${JSON.stringify(styleResult)}`
});

parallel() 的屏障语义非常适合”扇出-汇总”模式：先并行执行多个独立任务，等全部完成后再做综合判断。

pipeline()：流水线（无屏障）

pipeline() 是 Dynamic Workflows 更具特色的原语。它定义多个阶段，每个 item 独立流过所有阶段，不需要等待其他 item：

const results = await pipeline(
  files, // 输入数组
  [
    // Stage 1: 解析
    async (file) => {
      const parsed = await agent({ prompt: `解析文件 ${file.path}` });
      return { ...file, parsed };
    },
    // Stage 2: 转换
    async (item) => {
      const transformed = await agent({ prompt: `转换 ${item.parsed}` });
      return { ...item, transformed };
    },
    // Stage 3: 验证
    async (item) => {
      const valid = await agent({ prompt: `验证 ${item.transformed}` });
      return { ...item, valid };
    }
  ]
);

与 parallel() 的关键区别：当 file A 已经在 Stage 3 时，file B 可能还在 Stage 1。这种流水线模式在处理大量独立 item 时效率更高，因为不会出现”快的等慢的”问题。

phase()：阶段管理

phase() 用于逻辑分组和进度追踪：

await phase("发现阶段", async () => {
  const issues = await agent({ prompt: "扫描项目中的所有问题..." });
  return issues;
});

await phase("修复阶段", async () => {
  // 使用上一阶段的结果
  await pipeline(issues, [
    async (issue) => agent({ prompt: `修复 ${issue.description}` })
  ]);
});

phase() 本身不影响执行语义，但它给工作流提供了清晰的结构划分，在 Claude Code 的 UI 中会显示当前处于哪个阶段。

实战场景一：代码审查工作流

代码审查是 Dynamic Workflows 最典型的应用场景。传统的 AI 代码审查是单 Agent 线性扫描，容易遗漏问题。Dynamic Workflows 可以实现多维度并行扫描 + 对抗验证。

完整脚本示例

// code-review-workflow.js
// 多维度并行扫描 + 对抗验证 代码审查工作流

const diffOutput = await agent({
  prompt: "运行 git diff HEAD~1 获取最近一次提交的变更",
  tools: ["bash"]
});

// 阶段一：多维度并行扫描
const [security, performance, logic, testing] = await parallel([
  agent({
    prompt: `作为安全审计专家，审查以下代码变更中的安全问题：
      ${diffOutput}
      重点关注：SQL 注入、XSS、CSRF、敏感信息泄露、权限绕过`,
    outputSchema: {
      type: "object",
      properties: {
        issues: {
          type: "array",
          items: {
            type: "object",
            properties: {
              file: { type: "string" },
              line: { type: "number" },
              severity: { type: "string", enum: ["low", "medium", "high", "critical"] },
              description: { type: "string" },
              suggestion: { type: "string" }
            }
          }
        }
      }
    }
  }),
  agent({
    prompt: `作为性能优化专家，审查以下代码变更中的性能问题：
      ${diffOutput}
      重点关注：N+1 查询、内存泄漏、不必要的循环、缓存缺失`,
    model: "sonnet" // 性能审查用 Sonnet 降低成本
  }),
  agent({
    prompt: `作为业务逻辑专家，审查以下代码变更中的逻辑错误：
      ${diffOutput}
      重点关注：边界条件、空值处理、状态一致性、并发安全`
  }),
  agent({
    prompt: `作为测试专家，审查以下代码变更的测试覆盖：
      ${diffOutput}
      重点关注：核心路径是否有测试、边界用例是否覆盖、mock 是否合理`,
    model: "sonnet"
  })
]);

// 阶段二：对抗验证
const allIssues = [
  ...security.issues,
  ...(performance.issues || []),
  ...(logic.issues || []),
  ...(testing.issues || [])
];

const validated = await pipeline(
  allIssues,
  [
    // 每个问题由另一个 Agent 独立验证
    async (issue) => {
      const verification = await agent({
        prompt: `另一个审查者认为代码存在以下问题：
          文件：${issue.file}
          行号：${issue.line}
          描述：${issue.description}

          请独立验证这个问题是否真实存在。如果是误报请说明原因。`,
        outputSchema: {
          type: "object",
          properties: {
            confirmed: { type: "boolean" },
            confidence: { type: "number" },
            reason: { type: "string" }
          }
        }
      });
      return { ...issue, verification };
    }
  ]
);

// 阶段三：生成最终报告
const confirmedIssues = validated.filter(
  (i) => i.verification.confirmed && i.verification.confidence > 0.7
);

const report = await agent({
  prompt: `根据以下经过验证的问题生成结构化的代码审查报告：
    ${JSON.stringify(confirmedIssues)}
    按严重程度排序，给出修复优先级建议。`
});

实测效果

在一个中等规模的 PR（修改了 12 个文件、约 400 行变更）上测试这个工作流：

总耗时：约 45 秒（4 个并行扫描 + 逐条验证 + 报告生成）
发现问题：安全 2 条、性能 3 条、逻辑 1 条、测试覆盖 2 条
对抗验证淘汰：2 条误报（分别是一个”N+1 查询”的误判和一个”缺少空值检查”的误判，实际上下文已有守卫）
最终报告：6 条确认问题，按 critical → low 排序

与单 Agent 审查对比，多维度并行扫描的覆盖面明显更广。单 Agent 在同一次对话中很难同时扮演安全专家、性能专家和业务逻辑专家。对抗验证则有效降低了误报率——没有验证步骤时，8 条中有 2 条是误报，误报率 25%；加入验证后降到了 0。

实战场景二：大规模文件迁移

另一个高价值场景是大规模代码迁移。假设需要将项目中所有 CSS Modules 文件迁移到 Tailwind CSS：

// css-to-tailwind-migration.js
// CSS Modules → Tailwind CSS 大规模迁移

// 发现阶段：找到所有需要迁移的文件
const discovery = await agent({
  prompt: "列出项目中所有 .module.css 和 .module.scss 文件的路径",
  tools: ["glob", "bash"],
  outputSchema: {
    type: "object",
    properties: {
      files: { type: "array", items: { type: "string" } }
    }
  }
});

// 迁移阶段：每个文件独立迁移（使用 worktree 隔离）
const migrated = await pipeline(
  discovery.files,
  [
    // Stage 1: 分析 CSS 模块
    async (filePath) => {
      const analysis = await agent({
        prompt: `分析 ${filePath} 中的 CSS 规则，
                 列出每个类名及其对应的 Tailwind 类`,
        tools: ["read"]
      });
      return { filePath, analysis };
    },
    // Stage 2: 执行转换（worktree 隔离）
    async (item) => {
      const result = await agent({
        prompt: `将 ${item.filePath} 的 CSS 类替换为 Tailwind 类：
                 ${JSON.stringify(item.analysis)}
                 同时更新所有引用该 CSS 模块的 JSX/TSX 文件`,
        tools: ["read", "write", "bash"],
        worktree: true // 每个子代理在独立 worktree 中工作
      });
      return { ...item, result };
    },
    // Stage 3: 验证
    async (item) => {
      const valid = await agent({
        prompt: `验证 ${item.filePath} 的迁移结果：
                 1. 运行 TypeScript 类型检查
                 2. 运行相关测试
                 3. 对比迁移前后的视觉渲染`,
        tools: ["bash"]
      });
      return { ...item, valid };
    }
  ]
);

worktree 隔离的意义

当多个子代理同时修改文件时，如果都在同一个工作目录下操作，会产生冲突。worktree: true 让每个子代理在独立的 Git worktree 中工作，完成后自动合并。这是 Dynamic Workflows 相比简单并行调用的核心优势之一。

实测中，一个包含 47 个 CSS Module 文件的项目，迁移工作流耗时约 8 分钟，峰值并发 16 个子代理（受 CPU 核心数限制）。手动完成同样的迁移至少需要 2-3 天。

pipeline vs parallel 选择指南

这两个原语的选择是使用 Dynamic Workflows 时最常见的决策点：

特性	`pipeline()`	`parallel()`
屏障语义	无屏障，item 独立流动	有屏障，等待全部完成
适用场景	大量 item 的多阶段处理	少量独立任务的扇出-汇总
典型用例	文件迁移、批量转换	多维度审查、多方案生成
资源利用	更高（流水线饱和）	较低（快的等慢的）
结果依赖	各 item 结果独立	需要所有结果才能继续

经验法则：如果下一步需要”所有结果都到齐”才能做判断（比如汇总、去重、投票），用 parallel()。其他情况默认用 pipeline()。

一个容易踩的坑：不要在 pipeline() 的最后一个 stage 做跨 item 的汇总，因为 pipeline 不保证所有 item 同时完成。如果需要汇总，应该在 pipeline 结束后再用一个 agent() 或 parallel() 来处理。

成本控制与性能优化

Dynamic Workflows 的强大能力伴随着不低的 token 消耗。以下是几个实用的成本控制策略：

1. 混合模型策略

不是所有子代理都需要 Opus 4.8。简单的格式检查、文件发现等任务用 Sonnet 就够了：

// 发现阶段用 Sonnet（便宜、快）
const files = await agent({
  prompt: "列出所有需要迁移的文件",
  model: "sonnet"
});

// 核心转换用 Opus（准确）
const result = await agent({
  prompt: "执行复杂的代码重构",
  model: "opus"
});

Sonnet 的定价约为 Opus 的 1/8，在简单任务上的表现差异 <5%。一个典型的代码审查工作流中，约 60% 的子代理可以用 Sonnet 替代，总成本降低约 40%。

2. 限制工具集

每个子代理可用的工具越多，prompt 越长，token 消耗越高。通过 tools 参数精确限制：

// 只需要读文件的子代理
agent({ prompt: "...", tools: ["read", "glob"] });

// 需要修改文件的子代理
agent({ prompt: "...", tools: ["read", "write", "bash"] });

3. 结构化输出减少后处理

使用 outputSchema 让子代理直接输出结构化 JSON，避免后续再用另一个 Agent 解析自由文本：

agent({
  prompt: "分析代码质量",
  outputSchema: {
    type: "object",
    properties: {
      score: { type: "number", minimum: 0, maximum: 100 },
      issues: { type: "array" },
      recommendation: { type: "string" }
    }
  }
});

4. 避免非确定性函数

Dynamic Workflows 支持故障恢复——如果中途崩溃，可以从上一个检查点恢复。为此，脚本中禁止使用 Date.now()、Math.random() 等非确定性函数。这不仅是技术限制，也是一种最佳实践：确定性脚本更容易调试和复现。

成本估算参考

以代码审查工作流为例（12 文件、400 行变更）：

组件	子代理数	模型	估算 token	估算成本
差异获取	1	Opus	~2K in + ~5K out	~$0.14
并行扫描	4	2 Opus + 2 Sonnet	~20K in + ~15K out	~$0.48
对抗验证	8	Opus	~30K in + ~10K out	~$0.40
报告生成	1	Opus	~5K in + ~3K out	~$0.10
合计	14	—	~90K	~$1.12

单次 PR 审查约 $1.12，比人工审查的时间成本低得多。当然，对于大型项目每天几十个 PR 的场景，月度成本可能达到数百美元，需要按需评估 ROI。

限制与注意事项

Dynamic Workflows 目前仍有一些限制需要了解：

并发上限：最多 16 个并发子代理，受 CPU 核心数限制。对于 I/O 密集型任务（如网络请求），实际并发效率可能低于预期
脚本语言限制：必须使用纯 JavaScript，不支持 TypeScript、不支持外部 npm 包
上下文隔离：子代理之间不共享对话历史，如果需要传递上下文，必须通过参数显式传递
成本不透明：目前没有内置的 token 消耗追踪，需要自行估算
调试困难：当 1000 个子代理中的某一个出错时，定位问题不太直观

总结：适合谁用

Claude Opus 4.8 + Dynamic Workflows 的组合在以下场景中价值最大：

代码审查重度用户：多维度并行扫描 + 对抗验证，显著提升审查质量
大规模重构/迁移：pipeline + worktree 隔离，把几天的手工活压缩到几分钟
需要多方案对比的设计决策：并行生成 N 个方案 → 独立评审 → 综合最优
研究与文档任务：多路并行搜索 → 深入阅读 → 交叉验证 → 综合报告

不太适合的场景：

简单的单文件修改：杀鸡用牛刀，单 Agent 足矣
对延迟敏感的交互场景：工作流启动和编排有额外开销
预算极度敏感的团队：混合模型策略可以优化，但基础成本仍然存在

Dynamic Workflows 代表的是一种范式转变：从”一个 Agent 做所有事”到”编排一组专业 Agent 分工协作”。Opus 4.8 的 88.6% SWE-bench 和 4 倍缺陷检测能力为这种协作提供了可靠的底座。如果你的工作流中有明显的”可拆分为独立子任务”的特征，Dynamic Workflows 值得认真评估。