💡 一句话总结:AIDev 收集了 5 个编码 agent 在真实 GitHub 上自主提交的 93 万个 PR,拍下了「AI 队友」的全景。核心悖论:agent 又快又多,但 PR 明显更难被接受——速度碾压人类,接受率却低于人类,暴露出「信任」与「实用」之间的鸿沟。
一、AI 不再只是补全,它在直接提 PR
过去几年我们对 AI 写代码的印象,还停留在「补全」和「副驾驶」——你写,它帮你接下半句。但 2026 年的现实已经变了:AI 编码 agent 在自主地、端到端地给真实仓库提交 Pull Request。它自己规划、自己改代码、自己开 PR,全程不需要人类一行一行地牵着走。
这件事大到足以被称为「软件工程 3.0」——AI 从工具变成了队友。但一个尴尬的事实是:我们对这些「AI 队友」在真实世界里到底干得怎么样,几乎没有系统的数据。我们有 SWE-bench 这样的合成基准告诉我们 agent「理论上能修多难的 bug」,却没有数据告诉我们 agent 提的 PR 在真实项目里实际被不被接受。
AIDev(arXiv 2602.09185,“The Rise of AI Teammates in Software Engineering 3.0”)就是来补这个空白的。
二、AIDev:第一个大规模的「AI 队友」全景数据集
AIDev 是第一个大规模捕捉 AI 编码 agent 真实行为的数据集,规模相当可观:
- 932,791 个 Agentic-PR(agent 自主提交的 PR)
- 来自 5 个广泛部署的自治编码 agent:OpenAI Codex、Devin、GitHub Copilot、Cursor、Claude Code
- 覆盖 116,211 个仓库、72,189 名开发者
- 还有一个高质量子集:来自 2,807 个「星标 100 以上」仓库的 33,596 个 agent PR,附带评论、审查、提交和关联 issue 的完整信息
这不是实验室里的玩具数据,而是这五个 agent 在野外真实活动的全记录。它支撑的研究问题非常实在:agent 提的 PR 被合并了吗?人类怎么审查它们?agent 和人类协作得如何?
三、核心悖论:又快又多,但更难被接受
AIDev 揭示的最核心结论,是一个悖论:
Agent 在速度上通常胜过人类,但它们的 PR 被接受的频率却更低。
速度有多快?论文里有个极端但真实的案例:某位开发者在接入 agent 后,三天内提交的 PR 数量,相当于此前三年的累计。产能的爆炸是实打实的。
但产能不等于被采纳。人类 PR 的合并率接近八九成,而 agent 的 PR 合并率明显更低。这中间的差距,论文称之为「信任与实用之间的鸿沟」——agent 能快速产出大量代码(实用),但维护者是否信任并接受这些代码,是另一回事。
四、五个 agent 的合并率排行
不同 agent 之间,被接受的程度也拉开了差距。基于 AIDev 数据集的研究观察到的合并率大致是(区间反映不同仓库和时间段的差异):
| 来源 | 大致合并率 |
|---|---|
| 人类开发者 | 约 79% - 91% |
| OpenAI Codex | 约 63% - 86% |
| Claude Code | 约 58% - 72% |
| GitHub Copilot | 约 48% - 56% |
| Devin | 约 44% - 57% |
可以看到,所有 agent 的合并率都系统性地低于人类,其中 Codex 和 Claude Code 相对靠前,Copilot 和 Devin 偏弱。注意这些数字会随仓库类型、改动风险、统计口径浮动,别当成精确排名,但「agent 整体低于人类、各家有明显梯队」这个结论是稳的。
五、藏在数据里的反直觉发现
AIDev 真正有意思的,是几个反直觉的细节:
反直觉一:评论越多,agent PR 越难合并。 人类 PR 里,审查评论越多,合并几率越高(每条评论约 +2.7%)——讨论是协作的健康信号。但 agent PR 完全反过来:评论越多,合并率反而越低(每条评论约 -2.8%)。这说明当 agent PR 需要来回讨论、迭代时,它往往走不到合并那一步。agent 还不擅长在审查中协作改进。
反直觉二:大量 agent PR 是「自产自销」。 在已合并的 agent PR 里,77.5% 是由提交它的 agent 自行合并的(人类只有 57.6%)。更夸张的是,28.3% 的 agent PR 在一分钟内就被合并——几乎没有人类审查的时间。相当一部分 agent PR 走的是无人把关的自动化通道。
反直觉三:agent 代码更简单、也更短命。 通过代码复杂度指标分析,agent 的 PR 结构上更简单、改动更集中。而且 agent 引入的函数/类被删除的比率是 7.33%(人类 4.10%),删除速度也快得多——agent 代码被删的中位时间是 3 天,人类是 34 天。agent 产出里「短命代码」的比例更高。
反直觉四:agent 已经包揽了文档活。 在星标 500 以上的仓库里,约 74% 的「纯文档 PR」是 agent 提的,而且这些文档的保留率高达 87%。同时,agent PR 的测试包含率正快速上升,半年内从 31% 涨到了 52%。
六、这对开发者和团队意味着什么
把这些发现拼起来,agent 的真实画像就清晰了:它是一个高产、擅长低风险产出、但还不擅长在审查中协作迭代的初级队友。基于此,几条可落地的经验:
- 按工种用 agent:让它做文档、测试、样板代码、低风险改动——这些是它合并率高、保留率好的强项(文档保留率 87% 就是证据)。核心架构设计仍要人类主导。
- 自动合并按风险分级:「自产自销」在低风险改动上很高效,但别给核心代码开无人把关的自动合并通道。
- 优化 agent 的审查协作:既然「评论越多越难合并」,说明现有审查流程和 agent 配合不好。值得专门做「让 agent 基于 review 评论自动迭代」的能力。
- 把「带测试」设成硬要求:agent PR 测试覆盖在快速上升,顺势把它定为提 PR 的门槛,能进一步提升可信度。
结语
AIDev 的价值不在某个单一数字,而在于它第一次用真实世界的大规模数据,给「AI 队友」拍了张全景照。这张照片既振奋又冷静:agent 的产能是真的爆炸,但「快」和「被接受」之间还隔着一条信任的鸿沟。
对正在把 agent 引入工作流的团队,这份数据给的不是「该不该用」的答案——用是必然的——而是「怎么用得对」的地图:把 agent 放在它擅长的工种上,给它配上分风险的审查和合并机制,并正视它在协作迭代上的短板。AI 队友已经入职,接下来是怎么带好它的问题。