Paper

当 AI 构建自身:Anthropic 递归自我改进路径深度解读

10 min read ·

一句话总结:Anthropic 发布「When AI Builds Itself」,用内部数据揭示 Claude 已编写 80% 代码的现实,警告递归自我改进(RSI)可能在 2028 年前实现——同时呼吁建立全球协调暂停机制。在 IPO 前夕发出这份报告,是真诚的安全警告,还是精心设计的叙事?

一、这篇博文为什么引爆了 AI 圈

2026 年 6 月 4 日,Anthropic 旗下的 Anthropic Institute 发布了一篇名为「When AI Builds Itself」的长文。作者是 Marina Favaro 和 Jack Clark(Anthropic 联合创始人)。文章的核心论点很直白:AI 正在加速参与自身的开发过程,而且这个速度比大多数人预期的要快得多。

这篇博文之所以引爆讨论,不是因为它说了什么新鲜的理论,而是因为它给出了具体的数字。当一家正在申请 IPO、估值可能达到万亿美元级别的 AI 公司,公开承认自己的 AI 已经在「构建自身」时,这件事的分量就不一样了。

发布三天内,Forbes、CNN、CNBC、Fortune、Axios 等主流媒体全部跟进报道。Reddit 上 r/ClaudeAI 和 r/MachineLearning 的相关帖子评论数破千。Gary Marcus 在 Substack 上连发两篇文章反驳。而 Anthropic 自己的 IPO 申请,就在三天前的 6 月 1 日刚刚提交。

时机,太巧了。

二、核心论点:AI 编写自身代码的现状

80% 的代码——这个数字意味着什么

博文中最抓人的数据点:截至 2026 年 5 月,Claude 已经编写了 Anthropic 约 80% 的内部代码。 这个数字从「低个位数百分比」一路攀升,增长曲线几乎是指数型的。

但这个「80%」需要拆解来看:

换句话说,80% 描述的是体力活的自动化比例,而不是智力决策的让渡比例。但即便如此,这个数字仍然令人震惊——两年前,这个比例还接近于零。

人类角色的转变

博文明确提出了一个角色转型框架:

阶段人类角色AI 角色时间
阶段一编码者辅助工具2023-2024
阶段二架构师 + 审查者主要编码者2025-2026(当前)
阶段三方向制定者 + 监督者全栈开发 + 部分设计2027-2028(预测)

当前正处于阶段二——人类从「写代码的人」变成了「审代码的人」。Anthropic 认为,向阶段三的过渡可能比预期更快。

三、递归自我改进(RSI):技术路径解析

什么是 RSI

递归自我改进(Recursive Self-Improvement, RSI)是这篇博文的核心概念。简单说:

AI 改进自身 → 改进后的 AI 更擅长改进自身 → 更强的改进能力产出更好的 AI → 循环加速。

这不是新概念。I.J. Good 在 1965 年就提出了「智能爆炸」(intelligence explosion)假说。但 Anthropic 的贡献在于:它给出了 RSI 正在发生的实证数据,而不是停留在理论层面。

当前 RSI 的实现形式

博文将目前的 RSI 分为三个层次:

层次一:代码级自我改进(已实现)

Claude 已经在编写和优化 Anthropic 的生产代码,包括训练基础设施、数据处理管线、评估框架。这意味着 AI 在改进「制造 AI 的工具链」。

层次二:实验级自我改进(部分实现)

博文提到了一个关键数据点:当人类研究员在实验中走错方向时,研究员把实验记录展示给 Claude,让它建议下一步。结果,Mythos Preview 在 64% 的情况下给出了比人类更好的建议——而 2024 年这个数字只有 22%。

这意味着 AI 不仅在写代码,还在指导研究方向

层次三:架构级自我改进(尚未实现)

AI 独立设计新的模型架构、提出新的训练范式、发现新的理论洞见——这一层目前还没有达到,但 Anthropic 认为按当前速度,可能在 2028 年前出现。

RSI 的加速曲线

博文中展示了一张关键图表:模型能力随时间的增长曲线。图表标注了八个模型的发布时间点:

  1. Claude 1
  2. Claude 2
  3. Claude 3
  4. Claude 4
  5. Claude Code
  6. Claude Sonnet 4.5
  7. Claude Opus 4.5
  8. Claude Mythos Preview(内部访问)

值得注意的趋势是:模型发布的间隔在缩短,而每一代的能力跃升在增大。 早期从 Claude 1 到 Claude 2 用了约一年,能力提升幅度有限。但从 Claude Opus 4.5 到 Mythos Preview,间隔缩短到了几个月,而在研究辅助等维度上的提升却是前几代的数倍。

这正是 RSI 理论预测的模式:改进速度本身在加速。

四、模型能力演进时间线分析

博文中的模型时间线值得单独拆解,因为它不只是产品发布记录,更是 Anthropic 在暗示「能力增长速度正在脱离线性轨道」。

模型关键能力节点
Claude 1-2基础对话和文本生成,与 GPT-3.5 级别相当
Claude 3多模态、长上下文窗口,成为可用的编程助手
Claude 4复杂推理和代码生成能力显著提升
Claude Code首个专门面向编程的产品形态,agent 化操作
Sonnet 4.5速度与能力的平衡点,大规模部署的工作马
Opus 4.5旗舰推理能力,在多项基准上领先
Mythos Preview内部模型,64% 的情况下改进人类研究员的实验方向

Mythos Preview 是整篇博文的「重锤」。 一个内部模型,在研究指导任务上超越人类研究员的频率从 22% 跳到 64%——这个跃升发生在不到两年的时间里。如果这个趋势线性外推(更不用说指数外推),到 2028 年 AI 在研究方向指导上全面超越人类,并非天方夜谭。

当然,线性外推本身是个危险的假设。但 Anthropic 的用意很明确:它要让你看到这条曲线的斜率。

五、风险框架:Anthropic 提出的安全措施

协调暂停的提议

博文中最引发争议的提议是协调的、可验证的暂停(coordinated and verifiable pause)。具体来说:

这个提议听起来合理,但执行上面临巨大障碍:

博弈论困境:在竞争环境中,没有任何一家实验室有动机率先暂停。暂停意味着被竞争对手超越,而一旦落后,追赶的代价可能是致命的。这是经典的「囚徒困境」——所有人都知道合作更好,但每个人都有背叛的动机。

国际协调难题:即使美国的实验室达成共识,中国、欧洲、以及其他地区的 AI 开发者呢?目前不存在一个有约束力的国际 AI 协调机制。

可验证性困境:如何验证一家公司真的暂停了训练?模型训练可以在私有基础设施上进行,外部很难确认。Anthropic 提到了「可验证」的概念,但没有给出具体的技术方案。

监督机制设计

除了暂停提议,博文还讨论了几个较为具体的安全措施方向:

这些措施并不新鲜,Anthropic 此前在 Responsible Scaling Policy(RSP)中就有类似框架。但此次博文的新意在于:它将这些措施放在 RSI 的语境下重新强调,暗示现有的安全框架可能不足以应对 AI 自我改进的速度。

六、争议与批评:一份博文,两种读法

Gary Marcus 的炮火

认知科学家 Gary Marcus 是 AI 领域最知名的怀疑论者之一。在 Anthropic 博文发布后,他在 Substack 上连发文章,标题直接亮明立场:「No, Anthropic did not call for a pause on AI development」

Marcus 的核心论点:

  1. Anthropic 并没有真的呼吁暂停:它呼吁的是「暂停的选项」(the option of a pause),而不是「现在就暂停」。这两者有本质区别——前者是一个安全的政治声明,后者才是实际行动
  2. 时机可疑:IPO 申请三天后发布安全警告,很难不让人联想到品牌叙事——「我们是最负责任的 AI 公司」这个标签,在 IPO 路演中价值连城
  3. 夸大了当前能力:Marcus 认为 80% 的代码数据需要更多上下文——AI 写的代码类型、复杂度分布、人类审查后的修改率,这些关键信息博文都没有给出

Reddit 社区的理性拆解

Reddit r/ClaudeAI 上一个高赞帖子的标题同样尖锐:「Anthropic is not pausing. Its new report admits no AI lab can hold the brake from inside the race.」

帖子作者指出了一个结构性矛盾:Anthropic 一边警告 RSI 的风险,一边继续训练更强大的模型(Mythos Preview 就是证据)。它要的不是暂停,而是让所有人知道它在认真考虑暂停——这在 IPO 估值上的价值,远大于在安全上的实际效果。

支持者的辩护

当然也有另一种读法:即使 Anthropic 的动机不纯粹,这份博文本身仍然有价值。理由包括:

七、超越争议:对开发者的实际启示

抛开动机辩论,这篇博文对在 AI 时代工作的开发者有几个非常实际的启示:

1. 编码能力不再是稀缺资源

当 AI 可以生成 80% 的代码时,纯粹的编码能力的市场价值在快速下降。这不是说编程不重要了,而是说编程从「稀缺技能」变成了「基础设施」——就像打字速度从上世纪 90 年代的竞争力指标,变成了今天的入门要求。

2. 架构思维和系统设计成为核心竞争力

在 Anthropic 的三阶段框架中,人类正在从「编码者」变为「架构师 + 审查者」。这意味着:

3. 安全和对齐将成为工程实践

RSI 的讨论不再是象牙塔里的哲学问题。当你使用的 AI 编码助手可能在改进自身时,理解基本的 AI 安全概念——对齐(alignment)、红线(capability thresholds)、渐进式部署——将成为工程实践的一部分,就像今天理解 HTTPS 和 OWASP Top 10 一样。

4. 保持「监督者」心态

Anthropic 博文中有一个容易被忽略但极其重要的隐含建议:不要过早地、完全地将决策权交给 AI。 即使 AI 在 64% 的情况下给出了比人类更好的建议,那仍然有 36% 的时候是错的。在当前阶段,人类的价值不在于每次都比 AI 做得更好,而在于在 AI 犯错时能发现并纠正

八、总结:一面镜子,照出整个行业

「When AI Builds Itself」与其说是一篇技术报告,不如说是一面镜子——它照出了整个 AI 行业在 2026 年中期的真实状态:

Anthropic 给出了数据,但没有给出答案。80% 的代码、64% 的改进率、可能在 2028 年前实现的架构级 RSI——这些数字描绘了一个加速中的现实。至于人类社会能否跟上这个速度来管理风险,这是博文提出的问题,而不是它回答的问题。

也许这正是它引爆讨论的原因:在一个所有人都在加速的赛道上,有人停下来说了一句「我们是不是该想想刹车在哪」。 至于说这话的人是不是一边说一边踩油门——那是另一个值得关注的问题。

⚠️ 利益相关声明:本文分析基于公开报道和 Anthropic 博文内容。作者使用 Claude 作为写作辅助工具。对 Anthropic 动机的分析仅代表基于公开信息的推理,不构成事实断言。

Frequently asked questions

什么是递归自我改进(RSI)?
递归自我改进是指 AI 系统能够改进自身的代码、架构或训练过程,每一轮改进的产出又成为下一轮改进的输入,形成加速循环。Anthropic 认为这是 AI 发展的下一个关键阶段
Claude 真的编写了 Anthropic 80% 的代码吗?
根据 Anthropic 博文的数据,截至 2026 年 5 月,Claude 确实参与编写了约 80% 的内部代码。但这主要指代码生成环节,人类仍负责架构设计、代码审查和方向决策
Anthropic 为什么在 IPO 前夕发布安全警告?
这引发了广泛争议。支持者认为这体现了负责任的 AI 开发态度,批评者则认为这是一种营销策略,通过强调风险来凸显自身在安全领域的领导地位,提升 IPO 估值
协调暂停(Coordinated Pause)是否可行?
Anthropic 提议各大 AI 实验室在特定能力阈值处进行可验证的协调暂停。实际操作面临博弈论困境:没有实验室愿意单方面暂停,而国际协调机制尚不完善
递归自我改进对普通开发者意味着什么?
短期内意味着 AI 编码助手的能力将持续快速提升,开发者角色将更多转向架构设计和质量监督。长期来看,软件开发的工作流可能被根本性重塑
// next.txt ›

Some outbound links in this post are affiliate links — see disclosure.