Paper

当 AI 构建自身：Anthropic 递归自我改进路径深度解读

10 min read · Jun 10, 2026

一句话总结：Anthropic 发布「When AI Builds Itself」，用内部数据揭示 Claude 已编写 80% 代码的现实，警告递归自我改进（RSI）可能在 2028 年前实现——同时呼吁建立全球协调暂停机制。在 IPO 前夕发出这份报告，是真诚的安全警告，还是精心设计的叙事？

一、这篇博文为什么引爆了 AI 圈

2026 年 6 月 4 日，Anthropic 旗下的 Anthropic Institute 发布了一篇名为「When AI Builds Itself」的长文。作者是 Marina Favaro 和 Jack Clark（Anthropic 联合创始人）。文章的核心论点很直白：AI 正在加速参与自身的开发过程，而且这个速度比大多数人预期的要快得多。

这篇博文之所以引爆讨论，不是因为它说了什么新鲜的理论，而是因为它给出了具体的数字。当一家正在申请 IPO、估值可能达到万亿美元级别的 AI 公司，公开承认自己的 AI 已经在「构建自身」时，这件事的分量就不一样了。

发布三天内，Forbes、CNN、CNBC、Fortune、Axios 等主流媒体全部跟进报道。Reddit 上 r/ClaudeAI 和 r/MachineLearning 的相关帖子评论数破千。Gary Marcus 在 Substack 上连发两篇文章反驳。而 Anthropic 自己的 IPO 申请，就在三天前的 6 月 1 日刚刚提交。

时机，太巧了。

二、核心论点：AI 编写自身代码的现状

80% 的代码——这个数字意味着什么

博文中最抓人的数据点：截至 2026 年 5 月，Claude 已经编写了 Anthropic 约 80% 的内部代码。 这个数字从「低个位数百分比」一路攀升，增长曲线几乎是指数型的。

但这个「80%」需要拆解来看：

它指的是代码生成环节：Claude 负责将需求转化为代码，执行编写、调试、测试等操作
人类仍然主导架构设计：系统的整体设计、关键决策、代码审查仍由人类工程师完成
方向性决策完全由人类把控：训练什么模型、优化什么目标、部署什么功能，这些人类从未让渡

换句话说，80% 描述的是体力活的自动化比例，而不是智力决策的让渡比例。但即便如此，这个数字仍然令人震惊——两年前，这个比例还接近于零。

人类角色的转变

博文明确提出了一个角色转型框架：

阶段	人类角色	AI 角色	时间
阶段一	编码者	辅助工具	2023-2024
阶段二	架构师 + 审查者	主要编码者	2025-2026（当前）
阶段三	方向制定者 + 监督者	全栈开发 + 部分设计	2027-2028（预测）

当前正处于阶段二——人类从「写代码的人」变成了「审代码的人」。Anthropic 认为，向阶段三的过渡可能比预期更快。

三、递归自我改进（RSI）：技术路径解析

什么是 RSI

递归自我改进（Recursive Self-Improvement, RSI）是这篇博文的核心概念。简单说：

AI 改进自身 → 改进后的 AI 更擅长改进自身 → 更强的改进能力产出更好的 AI → 循环加速。

这不是新概念。I.J. Good 在 1965 年就提出了「智能爆炸」（intelligence explosion）假说。但 Anthropic 的贡献在于：它给出了 RSI 正在发生的实证数据，而不是停留在理论层面。

当前 RSI 的实现形式

博文将目前的 RSI 分为三个层次：

层次一：代码级自我改进（已实现）

Claude 已经在编写和优化 Anthropic 的生产代码，包括训练基础设施、数据处理管线、评估框架。这意味着 AI 在改进「制造 AI 的工具链」。

层次二：实验级自我改进（部分实现）

博文提到了一个关键数据点：当人类研究员在实验中走错方向时，研究员把实验记录展示给 Claude，让它建议下一步。结果，Mythos Preview 在 64% 的情况下给出了比人类更好的建议——而 2024 年这个数字只有 22%。

这意味着 AI 不仅在写代码，还在指导研究方向。

层次三：架构级自我改进（尚未实现）

AI 独立设计新的模型架构、提出新的训练范式、发现新的理论洞见——这一层目前还没有达到，但 Anthropic 认为按当前速度，可能在 2028 年前出现。

RSI 的加速曲线

博文中展示了一张关键图表：模型能力随时间的增长曲线。图表标注了八个模型的发布时间点：

Claude 1
Claude 2
Claude 3
Claude 4
Claude Code
Claude Sonnet 4.5
Claude Opus 4.5
Claude Mythos Preview（内部访问）

值得注意的趋势是：模型发布的间隔在缩短，而每一代的能力跃升在增大。 早期从 Claude 1 到 Claude 2 用了约一年，能力提升幅度有限。但从 Claude Opus 4.5 到 Mythos Preview，间隔缩短到了几个月，而在研究辅助等维度上的提升却是前几代的数倍。

这正是 RSI 理论预测的模式：改进速度本身在加速。

四、模型能力演进时间线分析

博文中的模型时间线值得单独拆解，因为它不只是产品发布记录，更是 Anthropic 在暗示「能力增长速度正在脱离线性轨道」。

模型	关键能力节点
Claude 1-2	基础对话和文本生成，与 GPT-3.5 级别相当
Claude 3	多模态、长上下文窗口，成为可用的编程助手
Claude 4	复杂推理和代码生成能力显著提升
Claude Code	首个专门面向编程的产品形态，agent 化操作
Sonnet 4.5	速度与能力的平衡点，大规模部署的工作马
Opus 4.5	旗舰推理能力，在多项基准上领先
Mythos Preview	内部模型，64% 的情况下改进人类研究员的实验方向

Mythos Preview 是整篇博文的「重锤」。 一个内部模型，在研究指导任务上超越人类研究员的频率从 22% 跳到 64%——这个跃升发生在不到两年的时间里。如果这个趋势线性外推（更不用说指数外推），到 2028 年 AI 在研究方向指导上全面超越人类，并非天方夜谭。

当然，线性外推本身是个危险的假设。但 Anthropic 的用意很明确：它要让你看到这条曲线的斜率。

五、风险框架：Anthropic 提出的安全措施

协调暂停的提议

博文中最引发争议的提议是协调的、可验证的暂停（coordinated and verifiable pause）。具体来说：

协调：不是某一家实验室单方面暂停，而是所有主要参与者同步暂停
可验证：暂停必须可以被第三方验证，防止「明面暂停、暗地开发」
阈值触发：在特定能力水平被达到时触发，而不是按时间日期

这个提议听起来合理，但执行上面临巨大障碍：

博弈论困境：在竞争环境中，没有任何一家实验室有动机率先暂停。暂停意味着被竞争对手超越，而一旦落后，追赶的代价可能是致命的。这是经典的「囚徒困境」——所有人都知道合作更好，但每个人都有背叛的动机。

国际协调难题：即使美国的实验室达成共识，中国、欧洲、以及其他地区的 AI 开发者呢？目前不存在一个有约束力的国际 AI 协调机制。

可验证性困境：如何验证一家公司真的暂停了训练？模型训练可以在私有基础设施上进行，外部很难确认。Anthropic 提到了「可验证」的概念，但没有给出具体的技术方案。

监督机制设计

除了暂停提议，博文还讨论了几个较为具体的安全措施方向：

分层访问控制：越强大的模型，部署范围越小，人类监督越密集
能力评估红线：定义一系列「如果模型能做到 X，就必须触发 Y 级别的审查」的阈值
渐进式部署：先内部测试、再限量发布、最后才全面开放——Mythos Preview 目前就处于「内部访问」阶段

这些措施并不新鲜，Anthropic 此前在 Responsible Scaling Policy（RSP）中就有类似框架。但此次博文的新意在于：它将这些措施放在 RSI 的语境下重新强调，暗示现有的安全框架可能不足以应对 AI 自我改进的速度。

六、争议与批评：一份博文，两种读法

Gary Marcus 的炮火

认知科学家 Gary Marcus 是 AI 领域最知名的怀疑论者之一。在 Anthropic 博文发布后，他在 Substack 上连发文章，标题直接亮明立场：「No, Anthropic did not call for a pause on AI development」。

Marcus 的核心论点：

Anthropic 并没有真的呼吁暂停：它呼吁的是「暂停的选项」（the option of a pause），而不是「现在就暂停」。这两者有本质区别——前者是一个安全的政治声明，后者才是实际行动
时机可疑：IPO 申请三天后发布安全警告，很难不让人联想到品牌叙事——「我们是最负责任的 AI 公司」这个标签，在 IPO 路演中价值连城
夸大了当前能力：Marcus 认为 80% 的代码数据需要更多上下文——AI 写的代码类型、复杂度分布、人类审查后的修改率，这些关键信息博文都没有给出

Reddit 社区的理性拆解

Reddit r/ClaudeAI 上一个高赞帖子的标题同样尖锐：「Anthropic is not pausing. Its new report admits no AI lab can hold the brake from inside the race.」

帖子作者指出了一个结构性矛盾：Anthropic 一边警告 RSI 的风险，一边继续训练更强大的模型（Mythos Preview 就是证据）。它要的不是暂停，而是让所有人知道它在认真考虑暂停——这在 IPO 估值上的价值，远大于在安全上的实际效果。

支持者的辩护

当然也有另一种读法：即使 Anthropic 的动机不纯粹，这份博文本身仍然有价值。理由包括：

数据是真实的：80% 的代码贡献率、Mythos Preview 的 64% 改进率，这些数据不会因为发布动机而失效
它推动了公共讨论：在此之前，RSI 是一个学术圈内的话题。Anthropic 把它推到了 CNN 和 Fortune 的头条，这本身就是对公共安全讨论的贡献
总比沉默好：如果 Anthropic 知道这些数据却不发布，那才是真正的不负责任

七、超越争议：对开发者的实际启示

抛开动机辩论，这篇博文对在 AI 时代工作的开发者有几个非常实际的启示：

1. 编码能力不再是稀缺资源

当 AI 可以生成 80% 的代码时，纯粹的编码能力的市场价值在快速下降。这不是说编程不重要了，而是说编程从「稀缺技能」变成了「基础设施」——就像打字速度从上世纪 90 年代的竞争力指标，变成了今天的入门要求。

2. 架构思维和系统设计成为核心竞争力

在 Anthropic 的三阶段框架中，人类正在从「编码者」变为「架构师 + 审查者」。这意味着：

理解系统如何协作的能力，比写出单个函数的能力更重要
判断代码质量的眼力（code review），比生产代码的手速更有价值
定义「做什么」的能力，比完成「怎么做」的能力更稀缺

3. 安全和对齐将成为工程实践

RSI 的讨论不再是象牙塔里的哲学问题。当你使用的 AI 编码助手可能在改进自身时，理解基本的 AI 安全概念——对齐（alignment）、红线（capability thresholds）、渐进式部署——将成为工程实践的一部分，就像今天理解 HTTPS 和 OWASP Top 10 一样。

4. 保持「监督者」心态

Anthropic 博文中有一个容易被忽略但极其重要的隐含建议：不要过早地、完全地将决策权交给 AI。 即使 AI 在 64% 的情况下给出了比人类更好的建议，那仍然有 36% 的时候是错的。在当前阶段，人类的价值不在于每次都比 AI 做得更好，而在于在 AI 犯错时能发现并纠正。

八、总结：一面镜子，照出整个行业

「When AI Builds Itself」与其说是一篇技术报告，不如说是一面镜子——它照出了整个 AI 行业在 2026 年中期的真实状态：

技术上：AI 自我改进从理论走向实证，RSI 不再是科幻概念
商业上：安全叙事和商业利益深度交织，很难分清哪个是因、哪个是果
社会上：公众讨论终于开始触及「AI 改进自身」这个之前被认为遥远的话题
个人层面：每个在 AI 辅助下工作的开发者，都需要重新定位自己的价值

Anthropic 给出了数据，但没有给出答案。80% 的代码、64% 的改进率、可能在 2028 年前实现的架构级 RSI——这些数字描绘了一个加速中的现实。至于人类社会能否跟上这个速度来管理风险，这是博文提出的问题，而不是它回答的问题。

也许这正是它引爆讨论的原因：在一个所有人都在加速的赛道上，有人停下来说了一句「我们是不是该想想刹车在哪」。 至于说这话的人是不是一边说一边踩油门——那是另一个值得关注的问题。

⚠️ 利益相关声明：本文分析基于公开报道和 Anthropic 博文内容。作者使用 Claude 作为写作辅助工具。对 Anthropic 动机的分析仅代表基于公开信息的推理，不构成事实断言。

Frequently asked questions

什么是递归自我改进（RSI）？: 递归自我改进是指 AI 系统能够改进自身的代码、架构或训练过程，每一轮改进的产出又成为下一轮改进的输入，形成加速循环。Anthropic 认为这是 AI 发展的下一个关键阶段
Claude 真的编写了 Anthropic 80% 的代码吗？: 根据 Anthropic 博文的数据，截至 2026 年 5 月，Claude 确实参与编写了约 80% 的内部代码。但这主要指代码生成环节，人类仍负责架构设计、代码审查和方向决策
Anthropic 为什么在 IPO 前夕发布安全警告？: 这引发了广泛争议。支持者认为这体现了负责任的 AI 开发态度，批评者则认为这是一种营销策略，通过强调风险来凸显自身在安全领域的领导地位，提升 IPO 估值
协调暂停（Coordinated Pause）是否可行？: Anthropic 提议各大 AI 实验室在特定能力阈值处进行可验证的协调暂停。实际操作面临博弈论困境：没有实验室愿意单方面暂停，而国际协调机制尚不完善
递归自我改进对普通开发者意味着什么？: 短期内意味着 AI 编码助手的能力将持续快速提升，开发者角色将更多转向架构设计和质量监督。长期来看，软件开发的工作流可能被根本性重塑

// next.txt ›

One signal per week. No AI filler.

🛠️ Work With Me

AI engineering, hands-on

Architecture review, RAG audit, build sprints.

Reach senior AI engineers

Newsletter slots, sponsored deep-dives.

Some outbound links in this post are affiliate links — see disclosure.