一句话总结:Anthropic 发布「When AI Builds Itself」,用内部数据揭示 Claude 已编写 80% 代码的现实,警告递归自我改进(RSI)可能在 2028 年前实现——同时呼吁建立全球协调暂停机制。在 IPO 前夕发出这份报告,是真诚的安全警告,还是精心设计的叙事?
一、这篇博文为什么引爆了 AI 圈
2026 年 6 月 4 日,Anthropic 旗下的 Anthropic Institute 发布了一篇名为「When AI Builds Itself」的长文。作者是 Marina Favaro 和 Jack Clark(Anthropic 联合创始人)。文章的核心论点很直白:AI 正在加速参与自身的开发过程,而且这个速度比大多数人预期的要快得多。
这篇博文之所以引爆讨论,不是因为它说了什么新鲜的理论,而是因为它给出了具体的数字。当一家正在申请 IPO、估值可能达到万亿美元级别的 AI 公司,公开承认自己的 AI 已经在「构建自身」时,这件事的分量就不一样了。
发布三天内,Forbes、CNN、CNBC、Fortune、Axios 等主流媒体全部跟进报道。Reddit 上 r/ClaudeAI 和 r/MachineLearning 的相关帖子评论数破千。Gary Marcus 在 Substack 上连发两篇文章反驳。而 Anthropic 自己的 IPO 申请,就在三天前的 6 月 1 日刚刚提交。
时机,太巧了。
二、核心论点:AI 编写自身代码的现状
80% 的代码——这个数字意味着什么
博文中最抓人的数据点:截至 2026 年 5 月,Claude 已经编写了 Anthropic 约 80% 的内部代码。 这个数字从「低个位数百分比」一路攀升,增长曲线几乎是指数型的。
但这个「80%」需要拆解来看:
- 它指的是代码生成环节:Claude 负责将需求转化为代码,执行编写、调试、测试等操作
- 人类仍然主导架构设计:系统的整体设计、关键决策、代码审查仍由人类工程师完成
- 方向性决策完全由人类把控:训练什么模型、优化什么目标、部署什么功能,这些人类从未让渡
换句话说,80% 描述的是体力活的自动化比例,而不是智力决策的让渡比例。但即便如此,这个数字仍然令人震惊——两年前,这个比例还接近于零。
人类角色的转变
博文明确提出了一个角色转型框架:
| 阶段 | 人类角色 | AI 角色 | 时间 |
|---|---|---|---|
| 阶段一 | 编码者 | 辅助工具 | 2023-2024 |
| 阶段二 | 架构师 + 审查者 | 主要编码者 | 2025-2026(当前) |
| 阶段三 | 方向制定者 + 监督者 | 全栈开发 + 部分设计 | 2027-2028(预测) |
当前正处于阶段二——人类从「写代码的人」变成了「审代码的人」。Anthropic 认为,向阶段三的过渡可能比预期更快。
三、递归自我改进(RSI):技术路径解析
什么是 RSI
递归自我改进(Recursive Self-Improvement, RSI)是这篇博文的核心概念。简单说:
AI 改进自身 → 改进后的 AI 更擅长改进自身 → 更强的改进能力产出更好的 AI → 循环加速。
这不是新概念。I.J. Good 在 1965 年就提出了「智能爆炸」(intelligence explosion)假说。但 Anthropic 的贡献在于:它给出了 RSI 正在发生的实证数据,而不是停留在理论层面。
当前 RSI 的实现形式
博文将目前的 RSI 分为三个层次:
层次一:代码级自我改进(已实现)
Claude 已经在编写和优化 Anthropic 的生产代码,包括训练基础设施、数据处理管线、评估框架。这意味着 AI 在改进「制造 AI 的工具链」。
层次二:实验级自我改进(部分实现)
博文提到了一个关键数据点:当人类研究员在实验中走错方向时,研究员把实验记录展示给 Claude,让它建议下一步。结果,Mythos Preview 在 64% 的情况下给出了比人类更好的建议——而 2024 年这个数字只有 22%。
这意味着 AI 不仅在写代码,还在指导研究方向。
层次三:架构级自我改进(尚未实现)
AI 独立设计新的模型架构、提出新的训练范式、发现新的理论洞见——这一层目前还没有达到,但 Anthropic 认为按当前速度,可能在 2028 年前出现。
RSI 的加速曲线
博文中展示了一张关键图表:模型能力随时间的增长曲线。图表标注了八个模型的发布时间点:
- Claude 1
- Claude 2
- Claude 3
- Claude 4
- Claude Code
- Claude Sonnet 4.5
- Claude Opus 4.5
- Claude Mythos Preview(内部访问)
值得注意的趋势是:模型发布的间隔在缩短,而每一代的能力跃升在增大。 早期从 Claude 1 到 Claude 2 用了约一年,能力提升幅度有限。但从 Claude Opus 4.5 到 Mythos Preview,间隔缩短到了几个月,而在研究辅助等维度上的提升却是前几代的数倍。
这正是 RSI 理论预测的模式:改进速度本身在加速。
四、模型能力演进时间线分析
博文中的模型时间线值得单独拆解,因为它不只是产品发布记录,更是 Anthropic 在暗示「能力增长速度正在脱离线性轨道」。
| 模型 | 关键能力节点 |
|---|---|
| Claude 1-2 | 基础对话和文本生成,与 GPT-3.5 级别相当 |
| Claude 3 | 多模态、长上下文窗口,成为可用的编程助手 |
| Claude 4 | 复杂推理和代码生成能力显著提升 |
| Claude Code | 首个专门面向编程的产品形态,agent 化操作 |
| Sonnet 4.5 | 速度与能力的平衡点,大规模部署的工作马 |
| Opus 4.5 | 旗舰推理能力,在多项基准上领先 |
| Mythos Preview | 内部模型,64% 的情况下改进人类研究员的实验方向 |
Mythos Preview 是整篇博文的「重锤」。 一个内部模型,在研究指导任务上超越人类研究员的频率从 22% 跳到 64%——这个跃升发生在不到两年的时间里。如果这个趋势线性外推(更不用说指数外推),到 2028 年 AI 在研究方向指导上全面超越人类,并非天方夜谭。
当然,线性外推本身是个危险的假设。但 Anthropic 的用意很明确:它要让你看到这条曲线的斜率。
五、风险框架:Anthropic 提出的安全措施
协调暂停的提议
博文中最引发争议的提议是协调的、可验证的暂停(coordinated and verifiable pause)。具体来说:
- 协调:不是某一家实验室单方面暂停,而是所有主要参与者同步暂停
- 可验证:暂停必须可以被第三方验证,防止「明面暂停、暗地开发」
- 阈值触发:在特定能力水平被达到时触发,而不是按时间日期
这个提议听起来合理,但执行上面临巨大障碍:
博弈论困境:在竞争环境中,没有任何一家实验室有动机率先暂停。暂停意味着被竞争对手超越,而一旦落后,追赶的代价可能是致命的。这是经典的「囚徒困境」——所有人都知道合作更好,但每个人都有背叛的动机。
国际协调难题:即使美国的实验室达成共识,中国、欧洲、以及其他地区的 AI 开发者呢?目前不存在一个有约束力的国际 AI 协调机制。
可验证性困境:如何验证一家公司真的暂停了训练?模型训练可以在私有基础设施上进行,外部很难确认。Anthropic 提到了「可验证」的概念,但没有给出具体的技术方案。
监督机制设计
除了暂停提议,博文还讨论了几个较为具体的安全措施方向:
- 分层访问控制:越强大的模型,部署范围越小,人类监督越密集
- 能力评估红线:定义一系列「如果模型能做到 X,就必须触发 Y 级别的审查」的阈值
- 渐进式部署:先内部测试、再限量发布、最后才全面开放——Mythos Preview 目前就处于「内部访问」阶段
这些措施并不新鲜,Anthropic 此前在 Responsible Scaling Policy(RSP)中就有类似框架。但此次博文的新意在于:它将这些措施放在 RSI 的语境下重新强调,暗示现有的安全框架可能不足以应对 AI 自我改进的速度。
六、争议与批评:一份博文,两种读法
Gary Marcus 的炮火
认知科学家 Gary Marcus 是 AI 领域最知名的怀疑论者之一。在 Anthropic 博文发布后,他在 Substack 上连发文章,标题直接亮明立场:「No, Anthropic did not call for a pause on AI development」。
Marcus 的核心论点:
- Anthropic 并没有真的呼吁暂停:它呼吁的是「暂停的选项」(the option of a pause),而不是「现在就暂停」。这两者有本质区别——前者是一个安全的政治声明,后者才是实际行动
- 时机可疑:IPO 申请三天后发布安全警告,很难不让人联想到品牌叙事——「我们是最负责任的 AI 公司」这个标签,在 IPO 路演中价值连城
- 夸大了当前能力:Marcus 认为 80% 的代码数据需要更多上下文——AI 写的代码类型、复杂度分布、人类审查后的修改率,这些关键信息博文都没有给出
Reddit 社区的理性拆解
Reddit r/ClaudeAI 上一个高赞帖子的标题同样尖锐:「Anthropic is not pausing. Its new report admits no AI lab can hold the brake from inside the race.」
帖子作者指出了一个结构性矛盾:Anthropic 一边警告 RSI 的风险,一边继续训练更强大的模型(Mythos Preview 就是证据)。它要的不是暂停,而是让所有人知道它在认真考虑暂停——这在 IPO 估值上的价值,远大于在安全上的实际效果。
支持者的辩护
当然也有另一种读法:即使 Anthropic 的动机不纯粹,这份博文本身仍然有价值。理由包括:
- 数据是真实的:80% 的代码贡献率、Mythos Preview 的 64% 改进率,这些数据不会因为发布动机而失效
- 它推动了公共讨论:在此之前,RSI 是一个学术圈内的话题。Anthropic 把它推到了 CNN 和 Fortune 的头条,这本身就是对公共安全讨论的贡献
- 总比沉默好:如果 Anthropic 知道这些数据却不发布,那才是真正的不负责任
七、超越争议:对开发者的实际启示
抛开动机辩论,这篇博文对在 AI 时代工作的开发者有几个非常实际的启示:
1. 编码能力不再是稀缺资源
当 AI 可以生成 80% 的代码时,纯粹的编码能力的市场价值在快速下降。这不是说编程不重要了,而是说编程从「稀缺技能」变成了「基础设施」——就像打字速度从上世纪 90 年代的竞争力指标,变成了今天的入门要求。
2. 架构思维和系统设计成为核心竞争力
在 Anthropic 的三阶段框架中,人类正在从「编码者」变为「架构师 + 审查者」。这意味着:
- 理解系统如何协作的能力,比写出单个函数的能力更重要
- 判断代码质量的眼力(code review),比生产代码的手速更有价值
- 定义「做什么」的能力,比完成「怎么做」的能力更稀缺
3. 安全和对齐将成为工程实践
RSI 的讨论不再是象牙塔里的哲学问题。当你使用的 AI 编码助手可能在改进自身时,理解基本的 AI 安全概念——对齐(alignment)、红线(capability thresholds)、渐进式部署——将成为工程实践的一部分,就像今天理解 HTTPS 和 OWASP Top 10 一样。
4. 保持「监督者」心态
Anthropic 博文中有一个容易被忽略但极其重要的隐含建议:不要过早地、完全地将决策权交给 AI。 即使 AI 在 64% 的情况下给出了比人类更好的建议,那仍然有 36% 的时候是错的。在当前阶段,人类的价值不在于每次都比 AI 做得更好,而在于在 AI 犯错时能发现并纠正。
八、总结:一面镜子,照出整个行业
「When AI Builds Itself」与其说是一篇技术报告,不如说是一面镜子——它照出了整个 AI 行业在 2026 年中期的真实状态:
- 技术上:AI 自我改进从理论走向实证,RSI 不再是科幻概念
- 商业上:安全叙事和商业利益深度交织,很难分清哪个是因、哪个是果
- 社会上:公众讨论终于开始触及「AI 改进自身」这个之前被认为遥远的话题
- 个人层面:每个在 AI 辅助下工作的开发者,都需要重新定位自己的价值
Anthropic 给出了数据,但没有给出答案。80% 的代码、64% 的改进率、可能在 2028 年前实现的架构级 RSI——这些数字描绘了一个加速中的现实。至于人类社会能否跟上这个速度来管理风险,这是博文提出的问题,而不是它回答的问题。
也许这正是它引爆讨论的原因:在一个所有人都在加速的赛道上,有人停下来说了一句「我们是不是该想想刹车在哪」。 至于说这话的人是不是一边说一边踩油门——那是另一个值得关注的问题。
⚠️ 利益相关声明:本文分析基于公开报道和 Anthropic 博文内容。作者使用 Claude 作为写作辅助工具。对 Anthropic 动机的分析仅代表基于公开信息的推理,不构成事实断言。