arXiv 2605.06548《Continuous Latent Diffusion Language Model》在 5 月初登 Hugging Face Daily Papers,作者来自 hongcanguo 等。这篇论文不是又一次”diffusion for text”的尝试,而是把扩散彻底搬到连续潜空间,并用层次化先验解决长期困扰文本扩散的两个老问题:离散采样的不稳定、训练时的 KL collapse。
本文按”问题 → 方法 → 实验 → 局限”四段拆 Cola DLM,并在结尾给一份工程角度的现实评估。
TL;DR
Cola DLM 用三段式管线取代自回归:先用 Text VAE 把文本压成连续潜向量序列,再在潜空间里用扩散模型建模全局语义先验,最后用条件解码器还原文本。这种”层次化”设计让扩散的天然并行优势第一次在文本任务上跑赢自回归(在 batch > 1 时),同时 1.4B 参数能把 PPL 拉到与同规模 GPT 相差 3% 以内。这是文本扩散从”研究 demo”走向”可比较候选方案”的转折点。
一、为什么文本扩散一直没起来
扩散模型在图像、视频、音频上都成了主流,但文本扩散过去三年发了不下 30 篇论文,至今没有一个能在生产中替代 GPT 风格自回归。原因有三:
- 离散性诅咒:图像像素是连续的,文本 token 是离散的。直接在 token 空间扩散需要”加噪 = 随机替换 token”这种粗糙操作,信号弱、训练不稳。
- 采样开销:扩散动辄 20-50 步,每步要跑一次 transformer。这对图像 OK(512×512 一张图),对文本(长序列)则与自回归 O(L) 抵消。
- 质量天花板:早期工作(D3PM、SEDD、LLaDA)在小规模上能 work,scale 到 7B+ 时质量崩。
Cola 不直接解决”离散 vs 连续”的根本矛盾,而是绕过去:既然连续好做,那就先把文本压到连续空间,再在连续空间里扩散。
二、三段式架构拆解
论文的核心架构图(Figure 2)画了三段:
| 阶段 | 模块 | 训练目标 |
|---|---|---|
| Stage 1 | Text VAE(encoder + decoder) | 重构损失 + KL 散度 |
| Stage 2 | Latent Diffusion Transformer | denoising score matching |
| Stage 3 | Conditional Decoder(复用 Stage 1) | 条件似然 |
2.1 Stage 1:Text VAE
这是最难训的一段。Text VAE 把 L 长度的 token 序列 x 压成 K 长度的连续向量 z(K << L,论文里 K ≈ L/8)。
关键设计:
- hierarchical bottleneck:encoder 用 transformer,输出在 K 个位置上聚合成 latent。
- decoder 是一个小 GPT(200M),condition on
z重构x。 - KL 退火 + free bits:训练前 10% steps β=0,再线性升到 1.0;free bits 设 0.5 nats/token 防止 latent 完全被忽略。
训出来的 Text VAE 在 WikiText-103 上 reconstruction BLEU 92.4,意味着 z 几乎无损保留语义。
2.2 Stage 2:潜空间扩散
在 z 空间上跑标准的 latent diffusion:
z_t = α_t * z_0 + σ_t * ε, ε ~ N(0, I)
loss = E[||ε_θ(z_t, t, c) - ε||²]
其中 c 是 condition(prompt embedding,也可以为空)。ε_θ 是一个 Diffusion Transformer(DiT 风格),1B 参数。
层次化体现在 z 本身的结构:低层位置编码全局语义、高层位置编码局部细节。论文 ablation 显示这种 hierarchy 把 PPL 降了 1.8 个点。
2.3 Stage 3:条件解码
Stage 2 采样得到的 ẑ_0 喂回 Stage 1 的 decoder(冻结),生成最终 token 序列。这一步是确定性的,没有随机性。
三、训练配方
| 项 | 配置 |
|---|---|
| Stage 1 数据 | C4 + OpenWebText, 50B tokens |
| Stage 1 batch / lr | 2M tokens / 3e-4 |
| Stage 2 数据 | 用 Stage 1 encoder 把 100B tokens 编码成 latent |
| Stage 2 diffusion schedule | linear, T=1000 |
| 推理步数 | 20(DPM-Solver) |
| 参数规模 | Text VAE 200M, Diffusion Transformer 1B(总 1.4B) |
| 硬件 | 32×H100, 7 天 |
成本上 Cola 1.4B 总训练时长约 5400 H100 hours,与同规模 GPT 自回归(约 4800)相当——VAE 阶段是额外开销,但只训一次可复用。
四、关键实验结果
4.1 困惑度(perplexity)
| 模型 | 参数 | WikiText-103 PPL ↓ |
|---|---|---|
| GPT-2 baseline | 1.4B | 17.6 |
| SEDD | 1.4B | 23.1 |
| LLaDA | 1.5B | 19.8 |
| Cola DLM | 1.4B | 18.2 |
Cola 把扩散语言模型与 GPT 的差距从 ~30% 缩到 3%,是当前 SOTA。
4.2 生成质量
Distinct-2(多样性)和 self-BLEU(重复度)上 Cola 显著优于 GPT:
| 指标 | GPT-2 1.4B | Cola DLM 1.4B |
|---|---|---|
| Distinct-2 ↑ | 0.71 | 0.83 |
| Self-BLEU ↓ | 0.34 | 0.21 |
| Coherence (人评) | 4.1/5 | 4.0/5 |
这与扩散的特性一致:多次去噪带来的隐式 mixing 让生成更多样。
4.3 推理速度
| 配置 | GPT-2 1.4B | Cola DLM 1.4B |
|---|---|---|
| batch=1, L=512 | 0.8 s | 1.0 s |
| batch=8, L=512 | 4.2 s | 2.1 s |
| batch=32, L=1024 | 28.5 s | 6.8 s |
Cola 的并行优势随 batch 与序列长度增大显著。这与扩散步数固定(20)+ DiT 单次前向覆盖全序列有关。
五、与同期工作对比
| 模型 | 扩散空间 | 训练数据规模 | 关键差异 |
|---|---|---|---|
| D3PM (2021) | 离散 token | 小规模 | 早期工作,质量不达 GPT |
| SEDD (2024) | 离散 token | 中等规模 | 引入 score entropy,质量提升 |
| LLaDA (2024) | masked discrete | 大规模 | 7B 版本接近 LLaMA 8B |
| Cola DLM (2026) | 连续潜空间 | 中等规模 | 第一个把扩散搬到 latent 的语言模型 |
LLaDA 走的是”离散 + 大力出奇迹”路线,Cola 走的是”绕开离散性”路线。两条路都有价值,长期看 Cola 在多模态统一上更有潜力——同样的 latent diffusion 框架可以无缝接图像、视频、音频。
六、局限性与工程视角
论文在 Section 6 自陈三点限制,加上笔者的工程角度补充:
- Stage 1 是新的瓶颈:VAE 重构 BLEU 虽然 92.4,但意味着 ~8% 的语义损失被永远抛弃,scale 到 100B 长文档时损失会累积。
- Scaling law 未验证:1.4B 上跑得通不代表 7B/70B 还成立。论文承诺会放出 7B 版本但还没到。
- prompt 控制弱:条件 c 的注入靠简单的 cross-attention,比自回归的 in-context learning 差一截,few-shot 性能未做评测。
- 工程支持空白(笔者补充):vLLM、SGLang、TensorRT-LLM 都没有 diffusion language model 的 kernel 优化。开源 Cola 在 H100 上跑实际吞吐比自回归差 30%(论文测的是 wall-clock,没算 kernel 优化空间)。
- 复杂度成本(笔者补充):三阶段管线意味着部署要维护 3 个模型 checkpoint、3 套推理 path。运维复杂度比 GPT 风格高一个数量级。
七、对工程团队的建议
短期(6 个月):不要把 Cola 放进生产路径。理由有两个——开源模型只有 1.4B,不够用;推理框架不支持,性能不可控。
中期(6-12 个月):关注三个信号——7B/13B 版本开源、vLLM 加 diffusion LM 支持、有 SOTA 论文(如 Cola-7B)证明 scaling 成立。
长期(12+ 个月):如果 Cola 路线 scaling 通过,把它作为”多模态统一生成”基座的候选之一评估。当前的 Sora / VideoPoet 都是为单模态设计,统一架构能省训练 / 推理资源。
八、值得复现的部分
如果你想动手验证,论文的 GitHub 仓库(hongcanguo/cola-dlm)放了 200M Text VAE checkpoint。可以从两步开始:
- 跑 Stage 1 重构:把任意一段中英文输入,看 VAE 重构 BLEU 是否落在 0.85-0.95,验证连续 latent 是否真的载得动语义。
- 跑 Stage 2 小规模训练:用 OpenWebText 1B token 训 200M Diffusion Transformer,对照论文 Figure 4 的 loss curve,验证 trainability。
Stage 1 在单卡 A100 上跑完约 6 小时,Stage 2 小规模约 24 小时——值得当周末项目。
Cola DLM 不会在 2026 年取代 GPT,但它把”扩散文本生成”从”小众研究”推到了”可比较的第三选项”。论文的真正贡献不是某一项 SOTA 数字,而是首次让连续 latent diffusion 在文本上跑通到 1.4B 规模——这是后续 7B、70B 的基础。