Paper

Toto 2.0 论文精读:时间序列预测进入规模化时代

6 min read ·

💡 一句话总结:时序预测领域第一次出现 “更大就是更准” 的开源基础模型族——5 个尺寸,4M 到 2.5B,没有饱和。

为什么时序预测的”GPT 时刻”姗姗来迟

NLP 在 2020 年看到了 GPT-3 的 scaling law:参数加大、数据加大,性能曲线没有饱和。视觉在 2021 年看到了 ViT-22B。语音在 2022 年看到了 Whisper。

时序预测这个领域,从 2017 年的 N-BEATS 到 2024 年的 TimeGPT、TimesFM、Chronos,所有的”基础模型”都有同一个尴尬:

模型最大参数是否单调改进
TimesFM200M否(500M 反而更差)
Chronos710M部分(特定数据集才有提升)
Moirai311M否(在小数据集上小模型更好)
TimeGPT-1不公开闭源无法验证

业界一度怀疑:时序预测可能根本不存在 scaling law。原因有人猜:

  1. 时序数据天然异质——电力负荷曲线和股票分钟线、心电图、IoT 传感器在底层根本不共享模式
  2. 训练目标是连续值回归,loss landscape 比 cross-entropy 复杂得多
  3. 评测基准(ETTh1、ETTm2)数据量小,大模型容易过拟合

Datadog 在 2026 年 5 月放出的 Toto 2.0(blogarXivGitHub)给出了第一个反例。

核心结论:scaling law 终于在时序成立

Toto 2.0 同时训了 5 个尺寸:

模型参数GIFT-Eval 平均 sMAPE训练 GPU-hour
Toto-2-4M4M14.2~200
Toto-2-22M22M11.8~1.1K
Toto-2-313M313M9.4~16K
Toto-2-1B1B8.2~52K
Toto-2-2.5B2.5B7.6~130K

关键观察:每一档都比上一档更准。22M 比 4M 好,313M 比 22M 好,2.5B 仍然比 1B 好。曲线没有饱和——意思是再加大到 5B、10B,还能继续涨。

这是时序预测领域的”GPT-3 时刻”。

关键技术 1:u-muP(unit-mu-Parameterization)

如果你看过 Greg Yang 2022 年的 muP 论文,知道它的核心 promise 是”最优 hyperparameter 不随模型宽度变化”。

实操意义:

这对训练基础模型族至关重要——大模型的 hyperparameter sweep 一次烧几十万美元,不可能每个尺寸都重新调。

Toto 2.0 用的 u-muP 是 muP 的工程化改良版:

传统 LayerNorm: y = γ * (x - μ) / σ + β    # 学习 γ, β
u-muP unit-norm: y = x / RMS(x) * scale_factor
                # scale_factor 跟随宽度 1/sqrt(d) 缩放

把每一层的激活 RMS 强制控制在 1 附近,让训练动力学在不同宽度下保持一致。Datadog 公开了配套的训练库 dd_unit_scaling,Apache 2.0。

这个库的潜在意义远超 Toto 本身:任何想做模型族的团队都可以复用

关键技术 2:Contiguous Patch Masking(CPM)

时序预测的传统做法是 autoregressive:预测下一个点 → 喂回去 → 预测再下一个。问题:

  1. 1024 步预测要做 1024 次(或拆成 16 × 64)forward,延迟高
  2. 训练时用 teacher forcing(真实历史),推理时用自己生成的历史,分布偏移
  3. 误差累积——第 50 步的预测建立在前 49 步可能错误的预测上

CPM 把整段未来当成一个 mask 块:

Input:  [x_1, x_2, ..., x_T,  MASK, MASK, ..., MASK ]
                              ↑                    ↑
                              预测窗口起点         预测窗口终点
Output: [        历史保持原样, y_1,  y_2, ...,  y_H ]

一次 forward 出整段。好处:

代价是 attention 矩阵更大(需要看完整个 mask 块),但 Datadog 用了相对位置编码 + sliding window attention,2.5B 模型在 A100 单卡 batch=64 仍能跑。

三大 benchmark:通杀

Benchmark数据集类型Toto-2.5B 排名第二名
BOOMDatadog observability 350K 时序#1TimesFM-500M(差 18% sMAPE)
GIFT-Eval48 个公开通用数据集#1Chronos-Large(差 9%)
TIME2024-2026 contamination-resistant zero-shot#1Moirai-MOE(差 13%)

GIFT-Eval 和 TIME 都是第三方基准,Datadog 没有 in-distribution 优势。特别是 TIME——这个 benchmark 故意只用 2024 年之后的数据(保证训练时没见过),就是为了反驳”基础模型只是记住了训练数据”的批评。Toto 2.0 在 TIME 上仍然 SOTA,说明学到了真泛化能力。

与其他时序基础模型的差异

模型参数范围scaling 可证开源协议inference 延迟(1024 步)
TimesFM (Google)200MApache 2.0高(多次 autoregressive)
Chronos (Amazon)8M-710M部分Apache 2.0高(autoregressive)
Moirai (Salesforce)14M-311MCC-BY-NC-4.0
TimeGPT (Nixtla)闭源不可验证闭源 SaaS低(API)
Toto 2.04M-2.5BApache 2.0低(CPM 单次 forward)

Toto 2.0 是同时满足”开源 + 可证 scaling + 大尺寸 + 低延迟”四项的唯一选择。

工程意义:observability 厂商的护城河变浅

时序预测对 Datadog/Splunk/New Relic 这类 observability 厂商是核心能力——anomaly detection、capacity planning、SLO 预测,都建立在预测准确度上。

过去这是闭源算法的护城河。Toto 2.0 把它 Apache 2.0 放出来,相当于护城河变成开放高速路。中小 SaaS 监控厂商现在可以直接拿 313M 模型部署,不需要养自己的 ML 团队。

更深的影响:Toto 2.0 没用任何公开 forecasting 数据集预训练,全部基于 Datadog 内部 observability 数据 + 合成数据。这暗示了一个新的”数据护城河”——真实生产环境的时序数据规模 + 多样性,比任何公开数据集都强。下一波时序基础模型的胜负,可能取决于谁能拿到最多的真实数据,而不是谁的模型架构更巧妙。

五点工程建议

如果你打算用 Toto 2.0:

  1. 从 22M 开始:CPU 单条推理 8ms,足以覆盖 90% 的常规时序任务
  2. 级联部署:22M 做粗筛 + 1B/2.5B 处理疑难序列,成本能压到原来 1/10
  3. 微调几乎没必要:BOOM/GIFT-Eval/TIME 上 zero-shot 已经 SOTA,微调收益边际递减
  4. 关注 prefill 显存:CPM 需要把整个 mask 块塞进 attention,长 horizon 任务(>2048)显存压力大
  5. 不要混用其他时序库的 normalization:Toto 内部用了 RevIN,外面再做 z-score 会反而变差

一句话收尾

时序预测的 scaling law 之争,2026 年 5 月 22 日落幕——答案是成立

接下来 12 个月,传统时序方法(ARIMA、Prophet、N-BEATS)会经历类似 NLP 圈在 2020 年的”GPT 化”:先是被质疑,然后被默默替换,最后变成教科书章节。

参考资料:

Frequently asked questions

为什么时序预测的 scaling law 之前一直没成立?
三个原因:(1) 时序数据天然异质,电力负荷曲线和股票分钟线、心电图、IoT 传感器没有共同模式可学;(2) 传统架构(DeepAR、N-BEATS、PatchTST)训练时 hyperparameter 必须随模型大小重调,加大 10 倍要重新搜索,工程上不可行;(3) 评测基准比如 ETTh1、ETTm2 数据量小,无法体现大模型的优势。Toto 2.0 用 u-muP 解决了 (2),用合成数据 + 内部 observability 数据规模解决了 (3),证明把数据和参数同时加大,效果就单调向上。
u-muP(unit-mu-P)到底是什么?为什么能让超参数从 4M 模型迁移到 2.5B?
uP(Maximal Update Parameterization)是 Greg Yang 在 2022 年提出的参数化方案:通过对权重初始化、学习率、attention 缩放因子做特定形式的归一化,使得最优学习率不随宽度变化。u-muP 是 uP 的进一步改进,把 unit norm 也纳入(每层激活的 RMS 控制在 1 附近),让模型族在不同宽度下表现一致的训练动力学。实操好处:在 4M 模型上调一次最优 lr,2.5B 直接用同样的 lr 训练,不需要重新搜索。这对时序基础模型至关重要——一次训练几十张卡,无法承担多次 sweep。
Contiguous Patch Masking(CPM)和传统 autoregressive 预测的关键差异?
autoregressive:预测第 t+1 步 → 喂回去预测 t+2 → 重复 1024 次。Toto 1.0 把 1024 步拆成 16 个 64-步窗口,autoregressive 16 次。CPM 把整段未来视作一个连续的 mask 块,编码器一次性看完整个历史 + mask 块的位置编码,解码器一次 forward 出整段预测。延迟从 16x 降到 1x,更重要的是 CPM 训练时不存在 teacher forcing/inference 时的 distribution shift(autoregressive 模型常见的 cumulative error)。代价是显存占用更高,但 2.5B 模型 inference 仍能在 A100 单卡跑 batch=64。
在 BOOM 这个 observability 专属 benchmark 上的优势是天然的吗?毕竟 Datadog 自己出题?
BOOM 确实是 Datadog 自己构建(350K 时序、各种 SaaS 监控场景),所以存在 in-distribution 优势的质疑。但 Toto 2.0 在第三方 GIFT-Eval(标准通用 benchmark,48 个公开数据集)和 TIME(新构建的 contamination-resistant zero-shot benchmark,专门用 2024 年之后的数据避免污染)也都拿第一。TIME 的设计是为了反驳 'foundation model 只是记住了训练数据' 的批评——Toto 2.0 在没见过的 2024-2026 时序数据上仍然 SOTA,说明学到了真泛化能力。
2.5B 参数的 Toto 2.0 推理成本怎么样?能在生产监控系统里实时跑吗?
Datadog 公开的数字是单张 A100 80GB 跑 2.5B 模型,batch=32、context_len=4096、horizon=1024,吞吐约 380 sequences/sec,单条 P99 延迟 95ms。1B 模型在 L4 GPU 单卡(24GB)可跑 batch=8,延迟约 80ms。如果是数百万时序的批量预测场景,建议用 313M 或 22M 档(22M 在 CPU 上都能跑,单条 8ms)。Datadog 自己生产用的是 1B + 22M 的级联:22M 做粗筛覆盖 95% 平稳序列,1B 处理剩下 5% 异常/突变序列。
// next.txt ›

Some outbound links in this post are affiliate links — see disclosure.