AIDev 和 SWE-bench 这类编码评测基准有什么区别？

SWE-bench 是合成基准——在精心挑选的、有标准答案的任务上测 agent 能不能修对，测的是「实验室里的能力上限」。AIDev 测的是「野外的真实行为」：agent 在真实 GitHub 仓库里自主提的 93 万个 PR，到底被不被接受、怎么被审查、和人类协作得如何。两者互补但回答不同问题。SWE-bench 告诉你「agent 理论上能修多难的 bug」，AIDev 告诉你「agent 提的 PR 在真实项目里实际被采纳的情况」。论文特意强调要超越合成基准、用真实世界数据研究 AI 原生工作流，正是因为前者答不出后者的问题。

为什么 agent 的 PR 合并率比人类低？是代码质量差吗？

不能简单归因为质量差，更像是「信任 + 协作」的综合问题。数据上，人类 PR 合并率接近八九成，agent 各家在四成到八成多不等，普遍低于人类。但同时 agent PR 的代码结构其实更简单、改动更集中。真正的鸿沟在于：维护者对 agent 提的代码天然更谨慎，审查更严；而且 agent PR 出现了一个反常现象——评论越多越难合并（人类 PR 恰恰相反）。这说明当 agent PR 需要来回讨论、改动时，它往往走不到合并那一步，反映的是 agent 还不擅长在审查中迭代协作，而不只是初始代码好不好。

「77.5% 的 agent PR 由 agent 自己合并」是什么意思，正常吗？

意思是这些已合并的 agent PR，是触发它的那个 agent（或其绑定的自动化流程）自行点了合并，而非由人类 reviewer 把关后合并——这个比例在人类 PR 里只有 57.6%。配合「28.3% 的 agent PR 在一分钟内就合并」一起看，画面就清楚了：相当一部分 agent PR 走的是「自产自销」的自动化通道，几乎没有人类审查介入。这在内部工具、文档更新、低风险改动上可能效率很高，但也埋了隐患——如果关键代码也这样无人把关地自动合并，质量和安全风险会累积。它提醒团队：给 agent 开自动合并权限，要按改动风险分级，不能一刀切全开。

数据说 agent 写的代码「被删得更快」，这意味着什么？

论文观察到，agent 引入的函数/类后来被删除的比率是 7.33%，高于人类的 4.10%，而且删除速度快得多——agent 代码被删的中位时间是 3 天，人类是 34 天。这说明 agent 产出里有更高比例是「短命代码」：写得快，但也更快被发现不合适、被推倒重来。结合 agent 代码结构更简单的特征，一个合理解读是：agent 擅长快速产出可用但不一定经得起时间考验的代码，更多承担「先跑起来」的脚手架角色，而经得起长期演化的核心设计仍高度依赖人类。这不是否定 agent，而是定位它的最佳工种。

作为开发者或团队 leader，从这份数据能学到什么实操经验？

几条很直接。一，把 agent 当「高产但需复核的初级队友」用——让它做文档、测试、样板代码、低风险改动这类它合并率高、保留率好的活（数据显示 agent 已包揽高星仓库里约七成的纯文档 PR，文档保留率高达 87%）。二，按风险分级配置自动合并权限，别给核心代码开「自产自销」通道。三，重视 agent PR 的审查协作——既然评论越多越难合并，说明现有审查流程和 agent 配合不好，值得专门优化（比如让 agent 能基于 review 评论自动迭代）。四，关注测试覆盖，数据显示 agent PR 的测试包含率正快速上升（半年从 31% 涨到 52%），把「带测试」设成 agent 提 PR 的硬性要求。

论文速读：AIDev 用 93 万个 PR，拍下了 AI 队友重写 GitHub 的全景

💡 一句话总结：AIDev 收集了 5 个编码 agent 在真实 GitHub 上自主提交的 93 万个 PR，拍下了「AI 队友」的全景。核心悖论：agent 又快又多，但 PR 明显更难被接受——速度碾压人类，接受率却低于人类，暴露出「信任」与「实用」之间的鸿沟。

一、AI 不再只是补全，它在直接提 PR

过去几年我们对 AI 写代码的印象，还停留在「补全」和「副驾驶」——你写，它帮你接下半句。但 2026 年的现实已经变了：AI 编码 agent 在自主地、端到端地给真实仓库提交 Pull Request。它自己规划、自己改代码、自己开 PR，全程不需要人类一行一行地牵着走。

这件事大到足以被称为「软件工程 3.0」——AI 从工具变成了队友。但一个尴尬的事实是：我们对这些「AI 队友」在真实世界里到底干得怎么样，几乎没有系统的数据。我们有 SWE-bench 这样的合成基准告诉我们 agent「理论上能修多难的 bug」，却没有数据告诉我们 agent 提的 PR 在真实项目里实际被不被接受。

AIDev（arXiv 2602.09185，“The Rise of AI Teammates in Software Engineering 3.0”）就是来补这个空白的。

二、AIDev：第一个大规模的「AI 队友」全景数据集

AIDev 是第一个大规模捕捉 AI 编码 agent 真实行为的数据集，规模相当可观：

932,791 个 Agentic-PR（agent 自主提交的 PR）
来自 5 个广泛部署的自治编码 agent：OpenAI Codex、Devin、GitHub Copilot、Cursor、Claude Code
覆盖 116,211 个仓库、72,189 名开发者
还有一个高质量子集：来自 2,807 个「星标 100 以上」仓库的 33,596 个 agent PR，附带评论、审查、提交和关联 issue 的完整信息

这不是实验室里的玩具数据，而是这五个 agent 在野外真实活动的全记录。它支撑的研究问题非常实在：agent 提的 PR 被合并了吗？人类怎么审查它们？agent 和人类协作得如何？

三、核心悖论：又快又多，但更难被接受

AIDev 揭示的最核心结论，是一个悖论：

Agent 在速度上通常胜过人类，但它们的 PR 被接受的频率却更低。

速度有多快？论文里有个极端但真实的案例：某位开发者在接入 agent 后，三天内提交的 PR 数量，相当于此前三年的累计。产能的爆炸是实打实的。

但产能不等于被采纳。人类 PR 的合并率接近八九成，而 agent 的 PR 合并率明显更低。这中间的差距，论文称之为「信任与实用之间的鸿沟」——agent 能快速产出大量代码（实用），但维护者是否信任并接受这些代码，是另一回事。

四、五个 agent 的合并率排行

不同 agent 之间，被接受的程度也拉开了差距。基于 AIDev 数据集的研究观察到的合并率大致是（区间反映不同仓库和时间段的差异）：

来源	大致合并率
人类开发者	约 79% - 91%
OpenAI Codex	约 63% - 86%
Claude Code	约 58% - 72%
GitHub Copilot	约 48% - 56%
Devin	约 44% - 57%

可以看到，所有 agent 的合并率都系统性地低于人类，其中 Codex 和 Claude Code 相对靠前，Copilot 和 Devin 偏弱。注意这些数字会随仓库类型、改动风险、统计口径浮动，别当成精确排名，但「agent 整体低于人类、各家有明显梯队」这个结论是稳的。

五、藏在数据里的反直觉发现

AIDev 真正有意思的，是几个反直觉的细节：

反直觉一：评论越多，agent PR 越难合并。 人类 PR 里，审查评论越多，合并几率越高（每条评论约 +2.7%）——讨论是协作的健康信号。但 agent PR 完全反过来：评论越多，合并率反而越低（每条评论约 -2.8%）。这说明当 agent PR 需要来回讨论、迭代时，它往往走不到合并那一步。agent 还不擅长在审查中协作改进。

反直觉二：大量 agent PR 是「自产自销」。 在已合并的 agent PR 里，77.5% 是由提交它的 agent 自行合并的（人类只有 57.6%）。更夸张的是，28.3% 的 agent PR 在一分钟内就被合并——几乎没有人类审查的时间。相当一部分 agent PR 走的是无人把关的自动化通道。

反直觉三：agent 代码更简单、也更短命。 通过代码复杂度指标分析，agent 的 PR 结构上更简单、改动更集中。而且 agent 引入的函数/类被删除的比率是 7.33%（人类 4.10%），删除速度也快得多——agent 代码被删的中位时间是 3 天，人类是 34 天。agent 产出里「短命代码」的比例更高。

反直觉四：agent 已经包揽了文档活。 在星标 500 以上的仓库里，约 74% 的「纯文档 PR」是 agent 提的，而且这些文档的保留率高达 87%。同时，agent PR 的测试包含率正快速上升，半年内从 31% 涨到了 52%。

六、这对开发者和团队意味着什么

把这些发现拼起来，agent 的真实画像就清晰了：它是一个高产、擅长低风险产出、但还不擅长在审查中协作迭代的初级队友。基于此，几条可落地的经验：

按工种用 agent：让它做文档、测试、样板代码、低风险改动——这些是它合并率高、保留率好的强项（文档保留率 87% 就是证据）。核心架构设计仍要人类主导。
自动合并按风险分级：「自产自销」在低风险改动上很高效，但别给核心代码开无人把关的自动合并通道。
优化 agent 的审查协作：既然「评论越多越难合并」，说明现有审查流程和 agent 配合不好。值得专门做「让 agent 基于 review 评论自动迭代」的能力。
把「带测试」设成硬要求：agent PR 测试覆盖在快速上升，顺势把它定为提 PR 的门槛，能进一步提升可信度。

结语

AIDev 的价值不在某个单一数字，而在于它第一次用真实世界的大规模数据，给「AI 队友」拍了张全景照。这张照片既振奋又冷静：agent 的产能是真的爆炸，但「快」和「被接受」之间还隔着一条信任的鸿沟。

对正在把 agent 引入工作流的团队，这份数据给的不是「该不该用」的答案——用是必然的——而是「怎么用得对」的地图：把 agent 放在它擅长的工种上，给它配上分风险的审查和合并机制，并正视它在协作迭代上的短板。AI 队友已经入职，接下来是怎么带好它的问题。

论文速读：AIDev 用 93 万个 PR，拍下了 AI 队友重写 GitHub 的全景

一、AI 不再只是补全，它在直接提 PR

二、AIDev：第一个大规模的「AI 队友」全景数据集

三、核心悖论：又快又多，但更难被接受

四、五个 agent 的合并率排行

五、藏在数据里的反直觉发现

六、这对开发者和团队意味着什么

结语

Frequently asked questions

GitHub AI PR 泛滥危机：当开源维护者成为 AI 生成垃圾代码的第一道防线

Miasma 蠕虫深度剖析：当供应链攻击开始瞄准 AI 编码 Agent

工具速评：四款规格驱动开发工具横评——告别 Vibe Coding