Paper

Cola DLM 论文精读：连续潜空间扩散如何挑战自回归语言模型

7 min read · May 17, 2026

arXiv 2605.06548《Continuous Latent Diffusion Language Model》在 5 月初登 Hugging Face Daily Papers，作者来自 hongcanguo 等。这篇论文不是又一次”diffusion for text”的尝试，而是把扩散彻底搬到连续潜空间，并用层次化先验解决长期困扰文本扩散的两个老问题：离散采样的不稳定、训练时的 KL collapse。

本文按”问题 → 方法 → 实验 → 局限”四段拆 Cola DLM，并在结尾给一份工程角度的现实评估。

TL;DR

Cola DLM 用三段式管线取代自回归：先用 Text VAE 把文本压成连续潜向量序列，再在潜空间里用扩散模型建模全局语义先验，最后用条件解码器还原文本。这种”层次化”设计让扩散的天然并行优势第一次在文本任务上跑赢自回归（在 batch > 1 时），同时 1.4B 参数能把 PPL 拉到与同规模 GPT 相差 3% 以内。这是文本扩散从”研究 demo”走向”可比较候选方案”的转折点。

一、为什么文本扩散一直没起来

扩散模型在图像、视频、音频上都成了主流，但文本扩散过去三年发了不下 30 篇论文，至今没有一个能在生产中替代 GPT 风格自回归。原因有三：

离散性诅咒：图像像素是连续的，文本 token 是离散的。直接在 token 空间扩散需要”加噪 = 随机替换 token”这种粗糙操作，信号弱、训练不稳。
采样开销：扩散动辄 20-50 步，每步要跑一次 transformer。这对图像 OK（512×512 一张图），对文本（长序列）则与自回归 O(L) 抵消。
质量天花板：早期工作（D3PM、SEDD、LLaDA）在小规模上能 work，scale 到 7B+ 时质量崩。

Cola 不直接解决”离散 vs 连续”的根本矛盾，而是绕过去：既然连续好做，那就先把文本压到连续空间，再在连续空间里扩散。

二、三段式架构拆解

论文的核心架构图（Figure 2）画了三段：

阶段	模块	训练目标
Stage 1	Text VAE（encoder + decoder）	重构损失 + KL 散度
Stage 2	Latent Diffusion Transformer	denoising score matching
Stage 3	Conditional Decoder（复用 Stage 1）	条件似然

2.1 Stage 1：Text VAE

这是最难训的一段。Text VAE 把 L 长度的 token 序列 x 压成 K 长度的连续向量 z（K << L，论文里 K ≈ L/8）。

关键设计：

hierarchical bottleneck：encoder 用 transformer，输出在 K 个位置上聚合成 latent。
decoder 是一个小 GPT（200M），condition on z 重构 x。
KL 退火 + free bits：训练前 10% steps β=0，再线性升到 1.0；free bits 设 0.5 nats/token 防止 latent 完全被忽略。

训出来的 Text VAE 在 WikiText-103 上 reconstruction BLEU 92.4，意味着 z 几乎无损保留语义。

2.2 Stage 2：潜空间扩散

在 z 空间上跑标准的 latent diffusion：

z_t = α_t * z_0 + σ_t * ε,  ε ~ N(0, I)
loss = E[||ε_θ(z_t, t, c) - ε||²]

其中 c 是 condition（prompt embedding，也可以为空）。ε_θ 是一个 Diffusion Transformer（DiT 风格），1B 参数。

层次化体现在 z 本身的结构：低层位置编码全局语义、高层位置编码局部细节。论文 ablation 显示这种 hierarchy 把 PPL 降了 1.8 个点。

2.3 Stage 3：条件解码

Stage 2 采样得到的 ẑ_0 喂回 Stage 1 的 decoder（冻结），生成最终 token 序列。这一步是确定性的，没有随机性。

三、训练配方

项	配置
Stage 1 数据	C4 + OpenWebText, 50B tokens
Stage 1 batch / lr	2M tokens / 3e-4
Stage 2 数据	用 Stage 1 encoder 把 100B tokens 编码成 latent
Stage 2 diffusion schedule	linear, T=1000
推理步数	20（DPM-Solver）
参数规模	Text VAE 200M, Diffusion Transformer 1B（总 1.4B）
硬件	32×H100, 7 天

成本上 Cola 1.4B 总训练时长约 5400 H100 hours，与同规模 GPT 自回归（约 4800）相当——VAE 阶段是额外开销，但只训一次可复用。

四、关键实验结果

4.1 困惑度（perplexity）

模型	参数	WikiText-103 PPL ↓
GPT-2 baseline	1.4B	17.6
SEDD	1.4B	23.1
LLaDA	1.5B	19.8
Cola DLM	1.4B	18.2

Cola 把扩散语言模型与 GPT 的差距从 ~30% 缩到 3%，是当前 SOTA。

4.2 生成质量

Distinct-2（多样性）和 self-BLEU（重复度）上 Cola 显著优于 GPT：

指标	GPT-2 1.4B	Cola DLM 1.4B
Distinct-2 ↑	0.71	0.83
Self-BLEU ↓	0.34	0.21
Coherence (人评)	4.1/5	4.0/5

这与扩散的特性一致：多次去噪带来的隐式 mixing 让生成更多样。

4.3 推理速度

配置	GPT-2 1.4B	Cola DLM 1.4B
batch=1, L=512	0.8 s	1.0 s
batch=8, L=512	4.2 s	2.1 s
batch=32, L=1024	28.5 s	6.8 s

Cola 的并行优势随 batch 与序列长度增大显著。这与扩散步数固定（20）+ DiT 单次前向覆盖全序列有关。

五、与同期工作对比

模型	扩散空间	训练数据规模	关键差异
D3PM (2021)	离散 token	小规模	早期工作，质量不达 GPT
SEDD (2024)	离散 token	中等规模	引入 score entropy，质量提升
LLaDA (2024)	masked discrete	大规模	7B 版本接近 LLaMA 8B
Cola DLM (2026)	连续潜空间	中等规模	第一个把扩散搬到 latent 的语言模型

LLaDA 走的是”离散 + 大力出奇迹”路线，Cola 走的是”绕开离散性”路线。两条路都有价值，长期看 Cola 在多模态统一上更有潜力——同样的 latent diffusion 框架可以无缝接图像、视频、音频。

六、局限性与工程视角

论文在 Section 6 自陈三点限制，加上笔者的工程角度补充：

Stage 1 是新的瓶颈：VAE 重构 BLEU 虽然 92.4，但意味着 ~8% 的语义损失被永远抛弃，scale 到 100B 长文档时损失会累积。
Scaling law 未验证：1.4B 上跑得通不代表 7B/70B 还成立。论文承诺会放出 7B 版本但还没到。
prompt 控制弱：条件 c 的注入靠简单的 cross-attention，比自回归的 in-context learning 差一截，few-shot 性能未做评测。
工程支持空白（笔者补充）：vLLM、SGLang、TensorRT-LLM 都没有 diffusion language model 的 kernel 优化。开源 Cola 在 H100 上跑实际吞吐比自回归差 30%（论文测的是 wall-clock，没算 kernel 优化空间）。
复杂度成本（笔者补充）：三阶段管线意味着部署要维护 3 个模型 checkpoint、3 套推理 path。运维复杂度比 GPT 风格高一个数量级。

七、对工程团队的建议

短期（6 个月）：不要把 Cola 放进生产路径。理由有两个——开源模型只有 1.4B，不够用；推理框架不支持，性能不可控。

中期（6-12 个月）：关注三个信号——7B/13B 版本开源、vLLM 加 diffusion LM 支持、有 SOTA 论文（如 Cola-7B）证明 scaling 成立。

长期（12+ 个月）：如果 Cola 路线 scaling 通过，把它作为”多模态统一生成”基座的候选之一评估。当前的 Sora / VideoPoet 都是为单模态设计，统一架构能省训练 / 推理资源。

八、值得复现的部分

如果你想动手验证，论文的 GitHub 仓库（hongcanguo/cola-dlm）放了 200M Text VAE checkpoint。可以从两步开始：

跑 Stage 1 重构：把任意一段中英文输入，看 VAE 重构 BLEU 是否落在 0.85-0.95，验证连续 latent 是否真的载得动语义。
跑 Stage 2 小规模训练：用 OpenWebText 1B token 训 200M Diffusion Transformer，对照论文 Figure 4 的 loss curve，验证 trainability。

Stage 1 在单卡 A100 上跑完约 6 小时，Stage 2 小规模约 24 小时——值得当周末项目。

Cola DLM 不会在 2026 年取代 GPT，但它把”扩散文本生成”从”小众研究”推到了”可比较的第三选项”。论文的真正贡献不是某一项 SOTA 数字，而是首次让连续 latent diffusion 在文本上跑通到 1.4B 规模——这是后续 7B、70B 的基础。

Frequently asked questions

Cola DLM 与 LLaDA 的本质差别是什么？: LLaDA 是离散扩散（masked diffusion），在 token 空间一步步去掩；Cola 是连续扩散，在 Text VAE 编码的连续潜向量上去噪。后者推理时不需要离散采样的多次前向，单次解码即可拿到全段文本；但训练复杂度更高，需要先 train 一个稳定的 Text VAE。
Text VAE 不是早就被证明在文本上不好训吗？: 传统 Text VAE 有 KL collapse 问题（latent 被忽略）。Cola 的关键改动有三：用 hierarchical bottleneck 强制 latent 携带信息；KL 退火 + free bits 控制坍缩；以及把 VAE 的 decoder 设成强 LM（GPT 小模型），保证重构质量。这些是论文 Appendix 的工程细节。
1.4B Cola 真的能和 1.4B GPT 打吗？: 论文表 3：WikiText-103 上 Cola PPL 18.2，1.4B GPT baseline 17.6，差距 3%。但在生成多样性（distinct-2、self-BLEU）和长文本 coherence 上 Cola 反超。论文没有声称 Cola 替代自回归，定位是『非自回归的可行第三条路』。
推理速度真的比自回归快吗？: 在 1024 token 长度、batch=1 时 Cola 比 GPT 慢 1.3 倍（要跑 20 步去噪）；但 batch=8 + 同长度，Cola 比 GPT 快 2.1 倍——因为扩散步数与序列长度解耦，自回归是 O(L)，Cola 是 O(steps)。推理优势随 batch 和序列长度增加。
对工程团队意味着什么？: 短期意义有限——主流推理引擎（vLLM / SGLang）都不支持扩散语言模型。Cola 的实际价值是研究方向：它把『统一连续模态生成』变得更可信，未来一个模型同时生成文字、图像、视频不再是空谈。生产落地至少要等开源 7B 版本与推理框架支持。

// next.txt ›

One signal per week. No AI filler.

🛠️ Work With Me

AI engineering, hands-on

Architecture review, RAG audit, build sprints.

Reach senior AI engineers

Newsletter slots, sponsored deep-dives.

Some outbound links in this post are affiliate links — see disclosure.