💡 一句话总结:训练数据墙不是终点,而是数据范式的转折点。2026 年的故事不再是『谁爬到更多数据』,而是『谁把合成数据玩得更不退化』。
数据墙到底有多近
Epoch AI 在 2024 年那篇被引爆的论文《Will we run out of data》给出了著名的预测:高质量公网英文文本约 300 万亿 token,按当前 frontier 模型 20-50T 训练量 + 5x 过训练(chinchilla optimal 之上额外扩张)算下来,2026 到 2032 年间有 80% 概率被穷尽。
到了 2026 年 5 月,这个预测已经从『远方的警告』变成『眼前的现实』。看几个信号:
- Anthropic 跟 Reddit、Bloomberg、Moody’s 等公司签独家数据合作(Fortune 5 月报道)
- OpenAI 跟 News Corp / Vox / Axel Springer 签了数十亿美元的内容授权
- Meta 在 5 月初被曝出在内部讨论『使用未授权 LibGen 数据』的法律风险
抢数据已经变成 frontier lab 的头等大事。
但有一个细节常被忽略:数据墙的定义只覆盖『公网优质英文文本』。如果把以下三块算上,故事会复杂得多:
| 数据类型 | 估算 token 量 | 现状 |
|---|---|---|
| 公网优质英文文本 | 300T | 2026-2032 年穷尽 |
| 公网中文 / 多语言文本 | 100-150T | 远未穷尽,但质量差异大 |
| 多模态数据(视频 / 音频 / 图) | 1000-5000T 等效 | 利用率<10% |
| 私有数据(医疗 / 法律 / 企业) | 不可量化 | 利用率<1% |
所以真实情况是:『纯英文公网文本的红利期结束,但训练数据这件事远未到天花板。』
三条出路:合成、多模态、私有
业内 2026 年实际在做的事情,可以归到三条路径。
路径 1:合成数据(synthetic data)
这是最热的一条路。OpenAI、Anthropic、Google、Cursor、Mistral 在 5 月都不同程度披露了合成数据的使用。
典型做法:
- 用最强模型(GPT-5.5、Opus 4.7、Gemini 3.5)扮演专家产出 trace
- 用 verifier(测试通过 / 数学解器 / 代码执行)过滤掉错误样本
- 用过滤后的样本对中等规模模型做 fine-tune 或 RLVR
成功案例:
- Cursor Composer 2.5 公开承认在 Kimi K2.5 基座上加了 25 倍合成任务,SWE-Bench 从 73.7% 拉到 79.8%
- DeepSeek-R1 的训练 trace 大量来自 R1-Zero 的『self-play reasoning』
- GoLongRL(本周另一篇文章拆解过)的 23K 数据里有相当比例是 GPT-5 在长文档上生成的 QA
失败案例:
- 2024 年 Rice 等的论文实证了『model collapse』:合成数据自循环 3 代后,多样性显著下降,模型输出趋于均值
- 2025 年某开源团队尝试用 LLM 生成中文古文写作训练数据,结果模型『古文越写越像翻译腔』,验证了主观任务上的退化
关键洞察:合成数据的有效性强依赖oracle 存在与否。数学、代码、形式化推理这类任务有客观验证器,合成数据可以闭环 self-improve;创造性写作、世界知识、闲聊这类任务没 oracle,靠 LLM 互评等于模型偏好闭环,几代必崩。
路径 2:多模态数据
数据墙在文本维度撞了,但视频 / 音频 / 图像维度还有 10-50 倍空间。
- YouTube 每分钟上传 500 小时视频,2026 累积存量超过 50 亿小时
- 播客总时长全球已达数百亿小时
- 图像 + 文档扫描件还有海量未数字化的素材
Google Gemini 3.5、OpenAI 的多模态模型、Meta 的 Chameleon 都在押注这条路径。难点不在数据量,而在多模态对齐的训练成本——一段视频处理后等效多少 token?目前业内估算约 20-30 token/帧,按 30fps 算一小时视频 ≈ 2M token。
多模态扩张让数据墙的『日子』至少多撑到 2030。
路径 3:私有数据与联邦学习
医疗、法律、金融、企业内部数据是『数据矿』的最后一块。
但有两个挑战:
- 法律 / 隐私约束:HIPAA、GDPR、PIPL 都让数据出域困难
- 数据质量:企业内部数据格式碎、噪声大、标注稀缺
解法主要是联邦学习 + 差分隐私。模型在客户场内训练,只把梯度(已加噪)传回中心服务器聚合。Apple Intelligence 走这条路、Microsoft 跟医院合作的项目也在试。这条路径技术门槛高、商业回报周期长,2026 年还没出现 frontier 级别的标志案例。
一个实证:Composer 2.5 的合成数据飞轮
5 月 18 日 Cursor 在 Composer 2.5 公告里公开了训练 recipe,是 2026 年合成数据『成功案例』的代表。三个关键设计:
1. 合成 trace 来自更强模型扮演工程师
让 GPT-5.5 / Opus 4.7 在 Cursor 环境里跑完整任务:read file → plan → edit → run test → fix。整个 trace 包括工具调用、错误信息、reasoning chain,全部当作训练样本。本质上是『最强模型在工作』的蒸馏。
2. textual feedback 替代偏好对
不是 RLHF 的 A/B 选偏好,而是『就这一步给反馈』。例如:
- 『这里应该先读文件再改』
- 『可以合并这两步』
- 『run_command 之前应该先 dry-run』
这种结构化反馈带可解释性,监督信号比模糊偏好强一个数量级。
3. 必须通过真实测试
所有合成 trace 在落盘前要在 Cursor 沙箱跑通对应仓库的真实测试。codebase + test suite 充当 oracle,没通过的样本直接丢弃。
三层组合让 25x 合成数据不退化反而增益。但要注意:这套配方只在『有测试集的代码任务』里有效,迁移到其他领域(比如创意写作)就完全没意义。
合成数据的『不可能三角』
研究社区现在公认的合成数据『不可能三角』:
多样性
/\
/ \
/ \
/ \
/ \
正确性 -------- 规模
- 想要多样性高:必须让模型探索新颖输出,但容易产生错误
- 想要正确性高:必须严格过滤,但留下的样本同质化
- 想要规模大:必须降低过滤阈值,但质量下降
2026 年大家做的事情本质上就是在三角内权衡:
- 数学 / 代码任务接近 80% 正确性 + 80% 规模 + 50% 多样性
- 创意任务难以同时拿到三个 60% 以上
理论上这个三角可以被打破,比如靠 active learning + 人类介入,但成本指数级增加。
未来 5 年的可能形态
把上面拼起来,2026-2030 的训练数据格局大致会是:
| 时间 | 文本主战场 | 多模态比例 | 合成数据比例 |
|---|---|---|---|
| 2026 | 公网英文 + 私有合作 | 10-20% | 20-30% |
| 2027 | 全语言 + 私有 | 25-35% | 35-50% |
| 2028 | 私有 + 多模态 | 40-50% | 50-60% |
| 2030 | 多模态主导 | 60%+ | 60-70% |
对开源社区的意义:
- 多模态成主战场:纯文本 LLM 的差距会进一步缩小,但多模态训练成本是 10-50 倍,开源需要找新打法
- 私有数据 + 联邦学习是机会:开源社区在差分隐私、安全聚合等技术上储备较好
- RLVR + 合成数据闭环是必备:所有有 oracle 的领域都会闭环 self-improve,Llama 5 / Qwen 4 应该都会按这个方向布局
给开发者的三个 takeaway
如果你不是在做 frontier 模型训练,这件事对你也有现实意义。
1. 自家场景如果有 oracle,可以跑合成数据飞轮
公司内部如果有自动化测试、规则引擎、可验证的业务逻辑,就可以用『强模型扮演专家 → verifier 过滤 → 蒸馏到小模型』这套方法论。Cursor Composer 2.5 走通了,证明在 vertical domain 也可行。
2. 别迷信开源数据集
很多 ‘open dataset’ 已经被多次合成数据污染,训练完模型在该 dataset 评测得分虚高、真实场景拉胯。挑数据集要看『何时构建』『有没有 LLM 合成参与』『有没有 leak』。
3. 多模态是未来 2-3 年的复利
如果你在做 vertical agent,应用层多模态(视频转录 + OCR + 图像理解)已经成熟。提前把数据管道改成多模态友好的格式,避开两年后再迁移的成本。
总结
2026 的训练数据故事是一个范式转折:
- 纯爬文本的时代结束
- 合成数据 + 多模态 + 私有数据成为新三件套
- 合成数据的胜负手在『有没有 oracle』
- 谁掌握『不退化的合成数据 recipe』,谁就掌握下一代护城河
数据墙不可怕,可怕的是不知道墙在哪、出路在哪。
Sources: