Epoch AI 说的数据墙到底是真的吗？还是危言耸听？

数据墙在『公网优质文本』维度上是真的，但定义需要拆解。Epoch 估计高质量公网英文文本约 300 万亿 token，按当前训练比例（GPT-5.5 / Claude Opus 4.7 大概 20-50T token 训练量 + 5x 过训练）算下来，2027-2028 年可能见底。但这只是『公开可爬』那部分，私有数据（如 Anthropic 跟 Reddit / Microsoft 签的合作）、多模态数据（图 / 视频 / 音频）、企业内部数据三块都没算。如果把多模态算上，可用 token 量到 2030 年还能再加 5-10 倍。所以更准确的说法是：『纯公网文本的红利期结束，未来增量靠多模态 + 合成 + 私有数据』，而不是『训练数据完全没了』。

合成数据为什么能在数学 / 编码领域好用，在其他领域不行？

核心是有没有客观验证器。数学题有标准答案（用 SymPy / Lean 验证），编码题有测试用例可以跑（执行得过即可），生成合成数据后能自动过滤掉错误样本，闭环 self-improve。但写诗、写小说、闲聊、世界常识这类任务没有客观真值——一首诗的好坏没有可验证 oracle，让 GPT 互相 review 容易产生『模型偏好闭环』，即 GPT 偏好 GPT 风格的输出，几代过滤后整个数据分布退化到模型的局部最优。Rice 等 2024 的论文已经实证这个『模型崩溃』现象：合成数据自循环 3 代后，多样性显著下降。结论：合成数据在『可验证任务』里是杠杆，在『主观任务』里是毒药，2026 年的前沿做法是『分领域用不同比例』。

Composer 2.5 用了 25 倍合成任务，具体怎么做到不退化的？

Cursor 公开的方法论里有三个关键设计。第一，合成数据来自『更强模型扮演工程师』，让 GPT-5.5 / Claude Opus 4.7 在 Cursor 环境里完整跑一个 task（read file → edit → run test → fix），保留 trace 作为训练样本，相当于用最强模型蒸馏到 Composer 2.5。第二，textual feedback 不是 RLHF 的偏好对，而是结构化反馈（『这里应该先读文件再改』『这步骤可以合并』），形成可解释的监督信号。第三，所有合成 trace 必须在 Cursor 环境里『跑通真实测试』才入选，相当于用 codebase + test suite 作为 oracle。三层结合让 25x 合成数据不退化反而增益。这套方法论可推广到其他『有 oracle 的领域』，但在 NLG 任务上仍然没有银弹。

Anthropic Mythos / OpenAI GPT-5.5 也都用了大量合成数据吗？

公开信息有限，但有些线索。Anthropic 在 5 月延迟 Mythos 发布的官方理由是『担心被滥用于 0day 挖掘』，但研究社区猜测真正问题是『训练混入太多合成代码漏洞描述，导致模型对漏洞模式过度敏感』，这是合成数据偏置的典型表现。OpenAI 公开承认 GPT-5.5 用了大量『AI-generated reasoning chains』，特别在 STEM 类任务上。Google Gemini 3.5 也承认在多语言能力上用合成翻译数据。前沿三家都在用合成数据，但都没有完全公开比例 —— 因为合成数据的『质量门槛 + 防退化技巧』本身就是新一代护城河，跟过去爬数据的能力差异类似。

未来 5 年训练数据会变成什么样？开源模型有机会吗？

三个趋势。第一，多模态数据成主战场：YouTube 视频 + 播客音频 + Common Crawl 图片，按 token 等效算还有 10-50T。开源社区在 LAION / WebLI 等数据集上已经有积累，多模态数据墙比文本数据墙远 3-5 年。第二，私有数据 + 联邦学习兴起：医疗、法律、金融、企业内部数据是新增长极，但需要全新的训练机制（差分隐私 + 联邦），开源社区在这块技术准备较好。第三，RLVR + 合成数据闭环成为标配：所有有 oracle 的领域（数学、代码、形式化推理、Web 操作）都会跑通 self-improve 循环。对开源模型来说机会在『多模态 + 私有数据 + RLVR』三件套，纯文本预训练的差距会进一步缩小。Llama 5 / Qwen 4 应该会按这个方向布局。

2026 LLM 训练数据墙：合成数据是出路还是下一个泡沫

💡 一句话总结：训练数据墙不是终点，而是数据范式的转折点。2026 年的故事不再是『谁爬到更多数据』，而是『谁把合成数据玩得更不退化』。

数据墙到底有多近

Epoch AI 在 2024 年那篇被引爆的论文《Will we run out of data》给出了著名的预测：高质量公网英文文本约 300 万亿 token，按当前 frontier 模型 20-50T 训练量 + 5x 过训练（chinchilla optimal 之上额外扩张）算下来，2026 到 2032 年间有 80% 概率被穷尽。

到了 2026 年 5 月，这个预测已经从『远方的警告』变成『眼前的现实』。看几个信号：

Anthropic 跟 Reddit、Bloomberg、Moody’s 等公司签独家数据合作（Fortune 5 月报道）
OpenAI 跟 News Corp / Vox / Axel Springer 签了数十亿美元的内容授权
Meta 在 5 月初被曝出在内部讨论『使用未授权 LibGen 数据』的法律风险

抢数据已经变成 frontier lab 的头等大事。

但有一个细节常被忽略：数据墙的定义只覆盖『公网优质英文文本』。如果把以下三块算上，故事会复杂得多：

数据类型	估算 token 量	现状
公网优质英文文本	300T	2026-2032 年穷尽
公网中文 / 多语言文本	100-150T	远未穷尽，但质量差异大
多模态数据（视频 / 音频 / 图）	1000-5000T 等效	利用率＜10%
私有数据（医疗 / 法律 / 企业）	不可量化	利用率＜1%

所以真实情况是：『纯英文公网文本的红利期结束，但训练数据这件事远未到天花板。』

三条出路：合成、多模态、私有

业内 2026 年实际在做的事情，可以归到三条路径。

路径 1：合成数据（synthetic data）

这是最热的一条路。OpenAI、Anthropic、Google、Cursor、Mistral 在 5 月都不同程度披露了合成数据的使用。

典型做法：

用最强模型（GPT-5.5、Opus 4.7、Gemini 3.5）扮演专家产出 trace
用 verifier（测试通过 / 数学解器 / 代码执行）过滤掉错误样本
用过滤后的样本对中等规模模型做 fine-tune 或 RLVR

成功案例：

Cursor Composer 2.5 公开承认在 Kimi K2.5 基座上加了 25 倍合成任务，SWE-Bench 从 73.7% 拉到 79.8%
DeepSeek-R1 的训练 trace 大量来自 R1-Zero 的『self-play reasoning』
GoLongRL（本周另一篇文章拆解过）的 23K 数据里有相当比例是 GPT-5 在长文档上生成的 QA

失败案例：

2024 年 Rice 等的论文实证了『model collapse』：合成数据自循环 3 代后，多样性显著下降，模型输出趋于均值
2025 年某开源团队尝试用 LLM 生成中文古文写作训练数据，结果模型『古文越写越像翻译腔』，验证了主观任务上的退化

关键洞察：合成数据的有效性强依赖oracle 存在与否。数学、代码、形式化推理这类任务有客观验证器，合成数据可以闭环 self-improve；创造性写作、世界知识、闲聊这类任务没 oracle，靠 LLM 互评等于模型偏好闭环，几代必崩。

路径 2：多模态数据

数据墙在文本维度撞了，但视频 / 音频 / 图像维度还有 10-50 倍空间。

YouTube 每分钟上传 500 小时视频，2026 累积存量超过 50 亿小时
播客总时长全球已达数百亿小时
图像 + 文档扫描件还有海量未数字化的素材

Google Gemini 3.5、OpenAI 的多模态模型、Meta 的 Chameleon 都在押注这条路径。难点不在数据量，而在多模态对齐的训练成本——一段视频处理后等效多少 token？目前业内估算约 20-30 token/帧，按 30fps 算一小时视频 ≈ 2M token。

多模态扩张让数据墙的『日子』至少多撑到 2030。

路径 3：私有数据与联邦学习

医疗、法律、金融、企业内部数据是『数据矿』的最后一块。

但有两个挑战：

法律 / 隐私约束：HIPAA、GDPR、PIPL 都让数据出域困难
数据质量：企业内部数据格式碎、噪声大、标注稀缺

解法主要是联邦学习 + 差分隐私。模型在客户场内训练，只把梯度（已加噪）传回中心服务器聚合。Apple Intelligence 走这条路、Microsoft 跟医院合作的项目也在试。这条路径技术门槛高、商业回报周期长，2026 年还没出现 frontier 级别的标志案例。

一个实证：Composer 2.5 的合成数据飞轮

5 月 18 日 Cursor 在 Composer 2.5 公告里公开了训练 recipe，是 2026 年合成数据『成功案例』的代表。三个关键设计：

1. 合成 trace 来自更强模型扮演工程师

让 GPT-5.5 / Opus 4.7 在 Cursor 环境里跑完整任务：read file → plan → edit → run test → fix。整个 trace 包括工具调用、错误信息、reasoning chain，全部当作训练样本。本质上是『最强模型在工作』的蒸馏。

2. textual feedback 替代偏好对

不是 RLHF 的 A/B 选偏好，而是『就这一步给反馈』。例如：

『这里应该先读文件再改』
『可以合并这两步』
『run_command 之前应该先 dry-run』

这种结构化反馈带可解释性，监督信号比模糊偏好强一个数量级。

3. 必须通过真实测试

所有合成 trace 在落盘前要在 Cursor 沙箱跑通对应仓库的真实测试。codebase + test suite 充当 oracle，没通过的样本直接丢弃。

三层组合让 25x 合成数据不退化反而增益。但要注意：这套配方只在『有测试集的代码任务』里有效，迁移到其他领域（比如创意写作）就完全没意义。

合成数据的『不可能三角』

研究社区现在公认的合成数据『不可能三角』：

        多样性
         /\
        /  \
       /    \
      /      \
     /        \
正确性 -------- 规模

想要多样性高：必须让模型探索新颖输出，但容易产生错误
想要正确性高：必须严格过滤，但留下的样本同质化
想要规模大：必须降低过滤阈值，但质量下降

2026 年大家做的事情本质上就是在三角内权衡：

数学 / 代码任务接近 80% 正确性 + 80% 规模 + 50% 多样性
创意任务难以同时拿到三个 60% 以上

理论上这个三角可以被打破，比如靠 active learning + 人类介入，但成本指数级增加。

未来 5 年的可能形态

把上面拼起来，2026-2030 的训练数据格局大致会是：

时间	文本主战场	多模态比例	合成数据比例
2026	公网英文 + 私有合作	10-20%	20-30%
2027	全语言 + 私有	25-35%	35-50%
2028	私有 + 多模态	40-50%	50-60%
2030	多模态主导	60%+	60-70%

对开源社区的意义：

多模态成主战场：纯文本 LLM 的差距会进一步缩小，但多模态训练成本是 10-50 倍，开源需要找新打法
私有数据 + 联邦学习是机会：开源社区在差分隐私、安全聚合等技术上储备较好
RLVR + 合成数据闭环是必备：所有有 oracle 的领域都会闭环 self-improve，Llama 5 / Qwen 4 应该都会按这个方向布局

给开发者的三个 takeaway

如果你不是在做 frontier 模型训练，这件事对你也有现实意义。

1. 自家场景如果有 oracle，可以跑合成数据飞轮

公司内部如果有自动化测试、规则引擎、可验证的业务逻辑，就可以用『强模型扮演专家 → verifier 过滤 → 蒸馏到小模型』这套方法论。Cursor Composer 2.5 走通了，证明在 vertical domain 也可行。

2. 别迷信开源数据集

很多 ‘open dataset’ 已经被多次合成数据污染，训练完模型在该 dataset 评测得分虚高、真实场景拉胯。挑数据集要看『何时构建』『有没有 LLM 合成参与』『有没有 leak』。

3. 多模态是未来 2-3 年的复利

如果你在做 vertical agent，应用层多模态（视频转录 + OCR + 图像理解）已经成熟。提前把数据管道改成多模态友好的格式，避开两年后再迁移的成本。

总结

2026 的训练数据故事是一个范式转折：

纯爬文本的时代结束
合成数据 + 多模态 + 私有数据成为新三件套
合成数据的胜负手在『有没有 oracle』
谁掌握『不退化的合成数据 recipe』，谁就掌握下一代护城河

数据墙不可怕，可怕的是不知道墙在哪、出路在哪。

Sources: