Paper

Continuous Latent Diffusion Language Model:当扩散模型学会写文字

6 min read ·

一个直觉性的问题

Stable Diffusion 生成图片的效果已经惊艳世界。DALL-E 3、Midjourney、Flux——扩散模型在图像生成领域称霸毫无争议。

但为什么没有人用扩散模型生成文字?

答案很简单:文字是离散的,扩散过程是连续的

图片是像素矩阵,每个像素是一个连续值(0-255 的浮点数)。你可以往上面加高斯噪声,再训练一个网络把噪声去掉——这就是扩散模型的核心。

但文字是一个个离散的 token。你不能给”猫”这个字加 0.3 个单位的噪声——它要么是”猫”,要么不是。

Continuous Latent Diffusion Language Model(CLDLM) 给出了一个巧妙的解决方案:先把离散的 token 映射到连续空间,再在连续空间上做扩散

核心思路

三阶段架构

编码阶段:  token序列 → [Encoder] → 连续潜向量 z₀
扩散阶段:  z₀ → [加噪] → zT → [去噪网络] → z₀'
解码阶段:  z₀' → [Decoder] → token序列

1. 编码器(Text → Continuous Latent)

编码器把离散的 token 序列映射到连续的潜空间。这不是简单的 embedding lookup——它需要捕获 token 之间的语义关系,生成的潜向量必须是”可扩散的”(即在连续空间中具有良好的拓扑结构)。

常见做法:使用预训练的 Encoder-Decoder 模型(如 T5 的 Encoder 部分),或者训练一个 VAE(变分自编码器)来学习潜空间。

2. 扩散去噪网络(核心)

在潜空间中执行标准的扩散过程:

前向过程(训练时):给干净的潜向量 z₀ 逐步添加高斯噪声,得到完全噪声化的 zT

z₀ → z₁ → z₂ → ... → zT (纯噪声)

反向过程(推理时):从纯噪声 zT 开始,用去噪网络逐步恢复 z₀

zT → z_{T-1} → ... → z₁ → z₀' (去噪结果)

去噪网络通常是一个 Transformer,接收当前的噪声向量和时间步 t 作为输入,预测噪声分量。

3. 解码器(Continuous Latent → Text)

把去噪后的潜向量映射回离散 token。这是一个非平凡的步骤——因为潜向量是连续的,解码器需要做一个”软到硬”的转换。

常见方法:

与自回归 LLM 的本质差异

维度自回归 LLM (GPT/Claude)CLDLM
生成方式从左到右逐 token全局并行去噪
输出类型每步输出一个 token 的概率分布每步输出整个序列的潜向量更新
全局一致性只能看到已生成的前缀每步都能看到整个序列的草稿
流式输出天然支持不支持(需要所有去噪步完成)
可编辑性困难(需要 re-generate)天然支持(在潜空间中局部修改)
训练效率高(Teacher Forcing)较低(需要大量去噪步训练)
推理并行度低(序列化)高(所有位置并行)

最有价值的差异:全局一致性

自回归模型的一个本质缺陷是曝光偏差(Exposure Bias)——训练时模型看到的是真实的前缀(Teacher Forcing),推理时看到的是自己生成的前缀。这导致错误会累积:一旦早期生成了一个不好的 token,后续内容会越跑越偏。

CLDLM 没有这个问题。去噪过程中,网络始终能看到整个序列的当前状态,可以同时修正所有位置的”错误”。这在需要全局一致性的任务中优势明显:

技术挑战

挑战 1: 离散-连续的鸿沟

文本的离散性是根本性的挑战。即使映射到了连续空间,潜向量的分布也不如图片那样”自然地”适合扩散过程。

解决方案:

挑战 2: 长度泛化

自回归模型的输出长度是灵活的——一直生成到出现 EOS token 为止。但 CLDLM 需要预先指定潜向量的长度(即输出序列长度),这对长度不确定的生成任务不友好。

现有方案:

挑战 3: 推理效率

去噪过程通常需要 50-200 步迭代,虽然每步可以并行处理所有位置,但总计算量仍然很大。

加速方案(从图像扩散模型借鉴):

2026 年的研究进展

MDLM(Masked Diffusion Language Model)

将 MLM(Masked Language Modeling)和扩散过程统一:前向过程是逐步 mask token,反向过程是逐步 unmask。在多个基准上超越了 GPT-2 级别的自回归模型。

SEDD(Score Entropy Discrete Diffusion)

在离散空间上直接定义扩散过程,避免了连续化编码的信息损失。用 score matching 替代传统的去噪目标,训练更稳定。

Plaid 1B

Meta 训练的 1B 参数扩散语言模型,在受控生成任务(情感控制、主题控制)上显著优于同等规模的自回归模型。这是目前公开的最大规模文本扩散模型。

工程前景判断

短期(2026-2027)

中期(2027-2028)

长期(2028+)

对开发者的建议

  1. 现在不需要切换:自回归模型(GPT、Claude、Llama)在 2026 年仍然是生产首选
  2. 关注混合架构:当出现”自回归 + 扩散”的混合模型时,可能是性能跃升的节点
  3. 学习扩散理论:理解 DDPM、Score Matching、Classifier-Free Guidance 等基础概念
  4. 关注 Hugging Face Diffusers 库:目前主要支持图像扩散,但文本支持在逐步加入

扩散语言模型是一个”看得见终点但还在路上”的方向。它不会在短期内替代自回归模型,但代表了”下一代 LLM 架构可能长什么样”的重要探索。

Frequently asked questions

扩散模型不是用来生成图片的吗?怎么能生成文字?
扩散模型的核心思想是'加噪→去噪',这个过程不限于图片。CLDLM 先用编码器把离散的 token 序列映射到连续的潜空间向量,然后在这个连续空间上执行扩散去噪过程,最后用解码器把去噪后的向量还原为 token 序列。关键创新是解决了'文本是离散的而扩散过程是连续的'这个矛盾。
CLDLM 和传统自回归 LLM 的本质区别是什么?
自回归 LLM 从左到右逐个生成 token,每个 token 只依赖前面已生成的内容,类似'写作文时一个字一个字写'。CLDLM 先在潜空间中规划整个文本的'草稿',再逐步细化,类似'先画轮廓再填细节'。这意味着 CLDLM 天然具有全局视野,但代价是无法流式输出。
CLDLM 的并行生成优势有多大?
理论上 CLDLM 可以一次性生成整个序列(所有位置并行去噪),但实际中去噪步骤通常需要 50-200 步迭代。对比自回归模型生成 1000 token 需要 1000 步前向传播,CLDLM 只需 100 步左右。但每步的计算量更大,所以实际加速约 2-5 倍,取决于序列长度和去噪步数。
CLDLM 目前能用于生产环境吗?
还不能。主要障碍:1) 模型规模还停留在 1-3B 参数,远不如 7B+ 的自回归模型;2) 长文本(>512 token)生成质量显著下降;3) 没有成熟的推理框架(类似 vLLM 的工具);4) 训练数据效率低于自回归模型。目前更适合特定任务(摘要、翻译、受控生成)而非通用对话。
CLDLM 未来会取代 Transformer 自回归模型吗?
短期不会,但长期可能成为重要的补充架构。最可能的演进路径是混合架构——自回归模型做长文本生成的主干,扩散模型做特定任务的精细控制(如文本编辑、风格转换、受约束生成)。类似图像领域 GAN → Diffusion 的演变,文本领域的范式转移可能需要 3-5 年。