Long-form

2026 LLM 训练数据墙:合成数据是出路还是下一个泡沫

7 min read ·

💡 一句话总结:训练数据墙不是终点,而是数据范式的转折点。2026 年的故事不再是『谁爬到更多数据』,而是『谁把合成数据玩得更不退化』。

数据墙到底有多近

Epoch AI 在 2024 年那篇被引爆的论文《Will we run out of data》给出了著名的预测:高质量公网英文文本约 300 万亿 token,按当前 frontier 模型 20-50T 训练量 + 5x 过训练(chinchilla optimal 之上额外扩张)算下来,2026 到 2032 年间有 80% 概率被穷尽。

到了 2026 年 5 月,这个预测已经从『远方的警告』变成『眼前的现实』。看几个信号:

抢数据已经变成 frontier lab 的头等大事。

但有一个细节常被忽略:数据墙的定义只覆盖『公网优质英文文本』。如果把以下三块算上,故事会复杂得多:

数据类型估算 token 量现状
公网优质英文文本300T2026-2032 年穷尽
公网中文 / 多语言文本100-150T远未穷尽,但质量差异大
多模态数据(视频 / 音频 / 图)1000-5000T 等效利用率<10%
私有数据(医疗 / 法律 / 企业)不可量化利用率<1%

所以真实情况是:『纯英文公网文本的红利期结束,但训练数据这件事远未到天花板。』

三条出路:合成、多模态、私有

业内 2026 年实际在做的事情,可以归到三条路径。

路径 1:合成数据(synthetic data)

这是最热的一条路。OpenAI、Anthropic、Google、Cursor、Mistral 在 5 月都不同程度披露了合成数据的使用。

典型做法

  1. 用最强模型(GPT-5.5、Opus 4.7、Gemini 3.5)扮演专家产出 trace
  2. 用 verifier(测试通过 / 数学解器 / 代码执行)过滤掉错误样本
  3. 用过滤后的样本对中等规模模型做 fine-tune 或 RLVR

成功案例

失败案例

关键洞察:合成数据的有效性强依赖oracle 存在与否。数学、代码、形式化推理这类任务有客观验证器,合成数据可以闭环 self-improve;创造性写作、世界知识、闲聊这类任务没 oracle,靠 LLM 互评等于模型偏好闭环,几代必崩。

路径 2:多模态数据

数据墙在文本维度撞了,但视频 / 音频 / 图像维度还有 10-50 倍空间。

Google Gemini 3.5、OpenAI 的多模态模型、Meta 的 Chameleon 都在押注这条路径。难点不在数据量,而在多模态对齐的训练成本——一段视频处理后等效多少 token?目前业内估算约 20-30 token/帧,按 30fps 算一小时视频 ≈ 2M token。

多模态扩张让数据墙的『日子』至少多撑到 2030。

路径 3:私有数据与联邦学习

医疗、法律、金融、企业内部数据是『数据矿』的最后一块。

但有两个挑战:

  1. 法律 / 隐私约束:HIPAA、GDPR、PIPL 都让数据出域困难
  2. 数据质量:企业内部数据格式碎、噪声大、标注稀缺

解法主要是联邦学习 + 差分隐私。模型在客户场内训练,只把梯度(已加噪)传回中心服务器聚合。Apple Intelligence 走这条路、Microsoft 跟医院合作的项目也在试。这条路径技术门槛高、商业回报周期长,2026 年还没出现 frontier 级别的标志案例。

一个实证:Composer 2.5 的合成数据飞轮

5 月 18 日 Cursor 在 Composer 2.5 公告里公开了训练 recipe,是 2026 年合成数据『成功案例』的代表。三个关键设计:

1. 合成 trace 来自更强模型扮演工程师

让 GPT-5.5 / Opus 4.7 在 Cursor 环境里跑完整任务:read file → plan → edit → run test → fix。整个 trace 包括工具调用、错误信息、reasoning chain,全部当作训练样本。本质上是『最强模型在工作』的蒸馏。

2. textual feedback 替代偏好对

不是 RLHF 的 A/B 选偏好,而是『就这一步给反馈』。例如:

这种结构化反馈带可解释性,监督信号比模糊偏好强一个数量级。

3. 必须通过真实测试

所有合成 trace 在落盘前要在 Cursor 沙箱跑通对应仓库的真实测试。codebase + test suite 充当 oracle,没通过的样本直接丢弃。

三层组合让 25x 合成数据不退化反而增益。但要注意:这套配方只在『有测试集的代码任务』里有效,迁移到其他领域(比如创意写作)就完全没意义。

合成数据的『不可能三角』

研究社区现在公认的合成数据『不可能三角』:

        多样性
         /\
        /  \
       /    \
      /      \
     /        \
正确性 -------- 规模

2026 年大家做的事情本质上就是在三角内权衡:

理论上这个三角可以被打破,比如靠 active learning + 人类介入,但成本指数级增加。

未来 5 年的可能形态

把上面拼起来,2026-2030 的训练数据格局大致会是:

时间文本主战场多模态比例合成数据比例
2026公网英文 + 私有合作10-20%20-30%
2027全语言 + 私有25-35%35-50%
2028私有 + 多模态40-50%50-60%
2030多模态主导60%+60-70%

对开源社区的意义

  1. 多模态成主战场:纯文本 LLM 的差距会进一步缩小,但多模态训练成本是 10-50 倍,开源需要找新打法
  2. 私有数据 + 联邦学习是机会:开源社区在差分隐私、安全聚合等技术上储备较好
  3. RLVR + 合成数据闭环是必备:所有有 oracle 的领域都会闭环 self-improve,Llama 5 / Qwen 4 应该都会按这个方向布局

给开发者的三个 takeaway

如果你不是在做 frontier 模型训练,这件事对你也有现实意义。

1. 自家场景如果有 oracle,可以跑合成数据飞轮

公司内部如果有自动化测试、规则引擎、可验证的业务逻辑,就可以用『强模型扮演专家 → verifier 过滤 → 蒸馏到小模型』这套方法论。Cursor Composer 2.5 走通了,证明在 vertical domain 也可行。

2. 别迷信开源数据集

很多 ‘open dataset’ 已经被多次合成数据污染,训练完模型在该 dataset 评测得分虚高、真实场景拉胯。挑数据集要看『何时构建』『有没有 LLM 合成参与』『有没有 leak』。

3. 多模态是未来 2-3 年的复利

如果你在做 vertical agent,应用层多模态(视频转录 + OCR + 图像理解)已经成熟。提前把数据管道改成多模态友好的格式,避开两年后再迁移的成本。

总结

2026 的训练数据故事是一个范式转折:

数据墙不可怕,可怕的是不知道墙在哪、出路在哪。

Sources:

Frequently asked questions

Epoch AI 说的数据墙到底是真的吗?还是危言耸听?
数据墙在『公网优质文本』维度上是真的,但定义需要拆解。Epoch 估计高质量公网英文文本约 300 万亿 token,按当前训练比例(GPT-5.5 / Claude Opus 4.7 大概 20-50T token 训练量 + 5x 过训练)算下来,2027-2028 年可能见底。但这只是『公开可爬』那部分,私有数据(如 Anthropic 跟 Reddit / Microsoft 签的合作)、多模态数据(图 / 视频 / 音频)、企业内部数据三块都没算。如果把多模态算上,可用 token 量到 2030 年还能再加 5-10 倍。所以更准确的说法是:『纯公网文本的红利期结束,未来增量靠多模态 + 合成 + 私有数据』,而不是『训练数据完全没了』。
合成数据为什么能在数学 / 编码领域好用,在其他领域不行?
核心是有没有客观验证器。数学题有标准答案(用 SymPy / Lean 验证),编码题有测试用例可以跑(执行得过即可),生成合成数据后能自动过滤掉错误样本,闭环 self-improve。但写诗、写小说、闲聊、世界常识这类任务没有客观真值——一首诗的好坏没有可验证 oracle,让 GPT 互相 review 容易产生『模型偏好闭环』,即 GPT 偏好 GPT 风格的输出,几代过滤后整个数据分布退化到模型的局部最优。Rice 等 2024 的论文已经实证这个『模型崩溃』现象:合成数据自循环 3 代后,多样性显著下降。结论:合成数据在『可验证任务』里是杠杆,在『主观任务』里是毒药,2026 年的前沿做法是『分领域用不同比例』。
Composer 2.5 用了 25 倍合成任务,具体怎么做到不退化的?
Cursor 公开的方法论里有三个关键设计。第一,合成数据来自『更强模型扮演工程师』,让 GPT-5.5 / Claude Opus 4.7 在 Cursor 环境里完整跑一个 task(read file → edit → run test → fix),保留 trace 作为训练样本,相当于用最强模型蒸馏到 Composer 2.5。第二,textual feedback 不是 RLHF 的偏好对,而是结构化反馈(『这里应该先读文件再改』『这步骤可以合并』),形成可解释的监督信号。第三,所有合成 trace 必须在 Cursor 环境里『跑通真实测试』才入选,相当于用 codebase + test suite 作为 oracle。三层结合让 25x 合成数据不退化反而增益。这套方法论可推广到其他『有 oracle 的领域』,但在 NLG 任务上仍然没有银弹。
Anthropic Mythos / OpenAI GPT-5.5 也都用了大量合成数据吗?
公开信息有限,但有些线索。Anthropic 在 5 月延迟 Mythos 发布的官方理由是『担心被滥用于 0day 挖掘』,但研究社区猜测真正问题是『训练混入太多合成代码漏洞描述,导致模型对漏洞模式过度敏感』,这是合成数据偏置的典型表现。OpenAI 公开承认 GPT-5.5 用了大量 『AI-generated reasoning chains』,特别在 STEM 类任务上。Google Gemini 3.5 也承认在多语言能力上用合成翻译数据。前沿三家都在用合成数据,但都没有完全公开比例 —— 因为合成数据的『质量门槛 + 防退化技巧』本身就是新一代护城河,跟过去爬数据的能力差异类似。
未来 5 年训练数据会变成什么样?开源模型有机会吗?
三个趋势。第一,多模态数据成主战场:YouTube 视频 + 播客音频 + Common Crawl 图片,按 token 等效算还有 10-50T。开源社区在 LAION / WebLI 等数据集上已经有积累,多模态数据墙比文本数据墙远 3-5 年。第二,私有数据 + 联邦学习兴起:医疗、法律、金融、企业内部数据是新增长极,但需要全新的训练机制(差分隐私 + 联邦),开源社区在这块技术准备较好。第三,RLVR + 合成数据闭环成为标配:所有有 oracle 的领域(数学、代码、形式化推理、Web 操作)都会跑通 self-improve 循环。对开源模型来说机会在『多模态 + 私有数据 + RLVR』三件套,纯文本预训练的差距会进一步缩小。Llama 5 / Qwen 4 应该会按这个方向布局。
// next.txt ›

Some outbound links in this post are affiliate links — see disclosure.