Paper

Cola DLM 论文精读:连续潜空间扩散如何挑战自回归语言模型

7 min read ·

arXiv 2605.06548《Continuous Latent Diffusion Language Model》在 5 月初登 Hugging Face Daily Papers,作者来自 hongcanguo 等。这篇论文不是又一次”diffusion for text”的尝试,而是把扩散彻底搬到连续潜空间,并用层次化先验解决长期困扰文本扩散的两个老问题:离散采样的不稳定、训练时的 KL collapse。

本文按”问题 → 方法 → 实验 → 局限”四段拆 Cola DLM,并在结尾给一份工程角度的现实评估。

TL;DR

Cola DLM 用三段式管线取代自回归:先用 Text VAE 把文本压成连续潜向量序列,再在潜空间里用扩散模型建模全局语义先验,最后用条件解码器还原文本。这种”层次化”设计让扩散的天然并行优势第一次在文本任务上跑赢自回归(在 batch > 1 时),同时 1.4B 参数能把 PPL 拉到与同规模 GPT 相差 3% 以内。这是文本扩散从”研究 demo”走向”可比较候选方案”的转折点。

一、为什么文本扩散一直没起来

扩散模型在图像、视频、音频上都成了主流,但文本扩散过去三年发了不下 30 篇论文,至今没有一个能在生产中替代 GPT 风格自回归。原因有三:

  1. 离散性诅咒:图像像素是连续的,文本 token 是离散的。直接在 token 空间扩散需要”加噪 = 随机替换 token”这种粗糙操作,信号弱、训练不稳。
  2. 采样开销:扩散动辄 20-50 步,每步要跑一次 transformer。这对图像 OK(512×512 一张图),对文本(长序列)则与自回归 O(L) 抵消。
  3. 质量天花板:早期工作(D3PM、SEDD、LLaDA)在小规模上能 work,scale 到 7B+ 时质量崩。

Cola 不直接解决”离散 vs 连续”的根本矛盾,而是绕过去:既然连续好做,那就先把文本压到连续空间,再在连续空间里扩散。

二、三段式架构拆解

论文的核心架构图(Figure 2)画了三段:

阶段模块训练目标
Stage 1Text VAE(encoder + decoder)重构损失 + KL 散度
Stage 2Latent Diffusion Transformerdenoising score matching
Stage 3Conditional Decoder(复用 Stage 1)条件似然

2.1 Stage 1:Text VAE

这是最难训的一段。Text VAE 把 L 长度的 token 序列 x 压成 K 长度的连续向量 z(K << L,论文里 K ≈ L/8)。

关键设计:

训出来的 Text VAE 在 WikiText-103 上 reconstruction BLEU 92.4,意味着 z 几乎无损保留语义。

2.2 Stage 2:潜空间扩散

z 空间上跑标准的 latent diffusion:

z_t = α_t * z_0 + σ_t * ε,  ε ~ N(0, I)
loss = E[||ε_θ(z_t, t, c) - ε||²]

其中 c 是 condition(prompt embedding,也可以为空)。ε_θ 是一个 Diffusion Transformer(DiT 风格),1B 参数。

层次化体现在 z 本身的结构:低层位置编码全局语义、高层位置编码局部细节。论文 ablation 显示这种 hierarchy 把 PPL 降了 1.8 个点。

2.3 Stage 3:条件解码

Stage 2 采样得到的 ẑ_0 喂回 Stage 1 的 decoder(冻结),生成最终 token 序列。这一步是确定性的,没有随机性。

三、训练配方

配置
Stage 1 数据C4 + OpenWebText, 50B tokens
Stage 1 batch / lr2M tokens / 3e-4
Stage 2 数据用 Stage 1 encoder 把 100B tokens 编码成 latent
Stage 2 diffusion schedulelinear, T=1000
推理步数20(DPM-Solver)
参数规模Text VAE 200M, Diffusion Transformer 1B(总 1.4B)
硬件32×H100, 7 天

成本上 Cola 1.4B 总训练时长约 5400 H100 hours,与同规模 GPT 自回归(约 4800)相当——VAE 阶段是额外开销,但只训一次可复用。

四、关键实验结果

4.1 困惑度(perplexity)

模型参数WikiText-103 PPL ↓
GPT-2 baseline1.4B17.6
SEDD1.4B23.1
LLaDA1.5B19.8
Cola DLM1.4B18.2

Cola 把扩散语言模型与 GPT 的差距从 ~30% 缩到 3%,是当前 SOTA。

4.2 生成质量

Distinct-2(多样性)和 self-BLEU(重复度)上 Cola 显著优于 GPT:

指标GPT-2 1.4BCola DLM 1.4B
Distinct-2 ↑0.710.83
Self-BLEU ↓0.340.21
Coherence (人评)4.1/54.0/5

这与扩散的特性一致:多次去噪带来的隐式 mixing 让生成更多样。

4.3 推理速度

配置GPT-2 1.4BCola DLM 1.4B
batch=1, L=5120.8 s1.0 s
batch=8, L=5124.2 s2.1 s
batch=32, L=102428.5 s6.8 s

Cola 的并行优势随 batch 与序列长度增大显著。这与扩散步数固定(20)+ DiT 单次前向覆盖全序列有关。

五、与同期工作对比

模型扩散空间训练数据规模关键差异
D3PM (2021)离散 token小规模早期工作,质量不达 GPT
SEDD (2024)离散 token中等规模引入 score entropy,质量提升
LLaDA (2024)masked discrete大规模7B 版本接近 LLaMA 8B
Cola DLM (2026)连续潜空间中等规模第一个把扩散搬到 latent 的语言模型

LLaDA 走的是”离散 + 大力出奇迹”路线,Cola 走的是”绕开离散性”路线。两条路都有价值,长期看 Cola 在多模态统一上更有潜力——同样的 latent diffusion 框架可以无缝接图像、视频、音频。

六、局限性与工程视角

论文在 Section 6 自陈三点限制,加上笔者的工程角度补充:

  1. Stage 1 是新的瓶颈:VAE 重构 BLEU 虽然 92.4,但意味着 ~8% 的语义损失被永远抛弃,scale 到 100B 长文档时损失会累积。
  2. Scaling law 未验证:1.4B 上跑得通不代表 7B/70B 还成立。论文承诺会放出 7B 版本但还没到。
  3. prompt 控制弱:条件 c 的注入靠简单的 cross-attention,比自回归的 in-context learning 差一截,few-shot 性能未做评测。
  4. 工程支持空白(笔者补充):vLLM、SGLang、TensorRT-LLM 都没有 diffusion language model 的 kernel 优化。开源 Cola 在 H100 上跑实际吞吐比自回归差 30%(论文测的是 wall-clock,没算 kernel 优化空间)。
  5. 复杂度成本(笔者补充):三阶段管线意味着部署要维护 3 个模型 checkpoint、3 套推理 path。运维复杂度比 GPT 风格高一个数量级。

七、对工程团队的建议

短期(6 个月):不要把 Cola 放进生产路径。理由有两个——开源模型只有 1.4B,不够用;推理框架不支持,性能不可控。

中期(6-12 个月):关注三个信号——7B/13B 版本开源、vLLM 加 diffusion LM 支持、有 SOTA 论文(如 Cola-7B)证明 scaling 成立。

长期(12+ 个月):如果 Cola 路线 scaling 通过,把它作为”多模态统一生成”基座的候选之一评估。当前的 Sora / VideoPoet 都是为单模态设计,统一架构能省训练 / 推理资源。

八、值得复现的部分

如果你想动手验证,论文的 GitHub 仓库(hongcanguo/cola-dlm)放了 200M Text VAE checkpoint。可以从两步开始:

  1. 跑 Stage 1 重构:把任意一段中英文输入,看 VAE 重构 BLEU 是否落在 0.85-0.95,验证连续 latent 是否真的载得动语义。
  2. 跑 Stage 2 小规模训练:用 OpenWebText 1B token 训 200M Diffusion Transformer,对照论文 Figure 4 的 loss curve,验证 trainability。

Stage 1 在单卡 A100 上跑完约 6 小时,Stage 2 小规模约 24 小时——值得当周末项目。

Cola DLM 不会在 2026 年取代 GPT,但它把”扩散文本生成”从”小众研究”推到了”可比较的第三选项”。论文的真正贡献不是某一项 SOTA 数字,而是首次让连续 latent diffusion 在文本上跑通到 1.4B 规模——这是后续 7B、70B 的基础。

Frequently asked questions

Cola DLM 与 LLaDA 的本质差别是什么?
LLaDA 是离散扩散(masked diffusion),在 token 空间一步步去掩;Cola 是连续扩散,在 Text VAE 编码的连续潜向量上去噪。后者推理时不需要离散采样的多次前向,单次解码即可拿到全段文本;但训练复杂度更高,需要先 train 一个稳定的 Text VAE。
Text VAE 不是早就被证明在文本上不好训吗?
传统 Text VAE 有 KL collapse 问题(latent 被忽略)。Cola 的关键改动有三:用 hierarchical bottleneck 强制 latent 携带信息;KL 退火 + free bits 控制坍缩;以及把 VAE 的 decoder 设成强 LM(GPT 小模型),保证重构质量。这些是论文 Appendix 的工程细节。
1.4B Cola 真的能和 1.4B GPT 打吗?
论文表 3:WikiText-103 上 Cola PPL 18.2,1.4B GPT baseline 17.6,差距 3%。但在生成多样性(distinct-2、self-BLEU)和长文本 coherence 上 Cola 反超。论文没有声称 Cola 替代自回归,定位是『非自回归的可行第三条路』。
推理速度真的比自回归快吗?
在 1024 token 长度、batch=1 时 Cola 比 GPT 慢 1.3 倍(要跑 20 步去噪);但 batch=8 + 同长度,Cola 比 GPT 快 2.1 倍——因为扩散步数与序列长度解耦,自回归是 O(L),Cola 是 O(steps)。推理优势随 batch 和序列长度增加。
对工程团队意味着什么?
短期意义有限——主流推理引擎(vLLM / SGLang)都不支持扩散语言模型。Cola 的实际价值是研究方向:它把『统一连续模态生成』变得更可信,未来一个模型同时生成文字、图像、视频不再是空谈。生产落地至少要等开源 7B 版本与推理框架支持。
// next.txt ›

Some outbound links in this post are affiliate links — see disclosure.