💡 一句话总结:时序预测领域第一次出现 “更大就是更准” 的开源基础模型族——5 个尺寸,4M 到 2.5B,没有饱和。
为什么时序预测的”GPT 时刻”姗姗来迟
NLP 在 2020 年看到了 GPT-3 的 scaling law:参数加大、数据加大,性能曲线没有饱和。视觉在 2021 年看到了 ViT-22B。语音在 2022 年看到了 Whisper。
但时序预测这个领域,从 2017 年的 N-BEATS 到 2024 年的 TimeGPT、TimesFM、Chronos,所有的”基础模型”都有同一个尴尬:
| 模型 | 最大参数 | 是否单调改进 |
|---|---|---|
| TimesFM | 200M | 否(500M 反而更差) |
| Chronos | 710M | 部分(特定数据集才有提升) |
| Moirai | 311M | 否(在小数据集上小模型更好) |
| TimeGPT-1 | 不公开 | 闭源无法验证 |
业界一度怀疑:时序预测可能根本不存在 scaling law。原因有人猜:
- 时序数据天然异质——电力负荷曲线和股票分钟线、心电图、IoT 传感器在底层根本不共享模式
- 训练目标是连续值回归,loss landscape 比 cross-entropy 复杂得多
- 评测基准(ETTh1、ETTm2)数据量小,大模型容易过拟合
Datadog 在 2026 年 5 月放出的 Toto 2.0(blog、arXiv、GitHub)给出了第一个反例。
核心结论:scaling law 终于在时序成立
Toto 2.0 同时训了 5 个尺寸:
| 模型 | 参数 | GIFT-Eval 平均 sMAPE | 训练 GPU-hour |
|---|---|---|---|
| Toto-2-4M | 4M | 14.2 | ~200 |
| Toto-2-22M | 22M | 11.8 | ~1.1K |
| Toto-2-313M | 313M | 9.4 | ~16K |
| Toto-2-1B | 1B | 8.2 | ~52K |
| Toto-2-2.5B | 2.5B | 7.6 | ~130K |
关键观察:每一档都比上一档更准。22M 比 4M 好,313M 比 22M 好,2.5B 仍然比 1B 好。曲线没有饱和——意思是再加大到 5B、10B,还能继续涨。
这是时序预测领域的”GPT-3 时刻”。
关键技术 1:u-muP(unit-mu-Parameterization)
如果你看过 Greg Yang 2022 年的 muP 论文,知道它的核心 promise 是”最优 hyperparameter 不随模型宽度变化”。
实操意义:
- 你在 1M 参数的小模型上 grid search 一次最优 learning rate
- 把同样的 lr 用在 100M、1B、10B 模型上,都仍然是最优的(不需要重新搜索)
这对训练基础模型族至关重要——大模型的 hyperparameter sweep 一次烧几十万美元,不可能每个尺寸都重新调。
Toto 2.0 用的 u-muP 是 muP 的工程化改良版:
传统 LayerNorm: y = γ * (x - μ) / σ + β # 学习 γ, β
u-muP unit-norm: y = x / RMS(x) * scale_factor
# scale_factor 跟随宽度 1/sqrt(d) 缩放
把每一层的激活 RMS 强制控制在 1 附近,让训练动力学在不同宽度下保持一致。Datadog 公开了配套的训练库 dd_unit_scaling,Apache 2.0。
这个库的潜在意义远超 Toto 本身:任何想做模型族的团队都可以复用。
关键技术 2:Contiguous Patch Masking(CPM)
时序预测的传统做法是 autoregressive:预测下一个点 → 喂回去 → 预测再下一个。问题:
- 1024 步预测要做 1024 次(或拆成 16 × 64)forward,延迟高
- 训练时用 teacher forcing(真实历史),推理时用自己生成的历史,分布偏移
- 误差累积——第 50 步的预测建立在前 49 步可能错误的预测上
CPM 把整段未来当成一个 mask 块:
Input: [x_1, x_2, ..., x_T, MASK, MASK, ..., MASK ]
↑ ↑
预测窗口起点 预测窗口终点
Output: [ 历史保持原样, y_1, y_2, ..., y_H ]
一次 forward 出整段。好处:
- 延迟:1024 步预测从 16x 降到 1x
- 无分布偏移:训练和推理用同一个机制
- 无误差累积:每一步的预测独立于其他预测步
代价是 attention 矩阵更大(需要看完整个 mask 块),但 Datadog 用了相对位置编码 + sliding window attention,2.5B 模型在 A100 单卡 batch=64 仍能跑。
三大 benchmark:通杀
| Benchmark | 数据集类型 | Toto-2.5B 排名 | 第二名 |
|---|---|---|---|
| BOOM | Datadog observability 350K 时序 | #1 | TimesFM-500M(差 18% sMAPE) |
| GIFT-Eval | 48 个公开通用数据集 | #1 | Chronos-Large(差 9%) |
| TIME | 2024-2026 contamination-resistant zero-shot | #1 | Moirai-MOE(差 13%) |
GIFT-Eval 和 TIME 都是第三方基准,Datadog 没有 in-distribution 优势。特别是 TIME——这个 benchmark 故意只用 2024 年之后的数据(保证训练时没见过),就是为了反驳”基础模型只是记住了训练数据”的批评。Toto 2.0 在 TIME 上仍然 SOTA,说明学到了真泛化能力。
与其他时序基础模型的差异
| 模型 | 参数范围 | scaling 可证 | 开源协议 | inference 延迟(1024 步) |
|---|---|---|---|---|
| TimesFM (Google) | 200M | 否 | Apache 2.0 | 高(多次 autoregressive) |
| Chronos (Amazon) | 8M-710M | 部分 | Apache 2.0 | 高(autoregressive) |
| Moirai (Salesforce) | 14M-311M | 否 | CC-BY-NC-4.0 | 中 |
| TimeGPT (Nixtla) | 闭源 | 不可验证 | 闭源 SaaS | 低(API) |
| Toto 2.0 | 4M-2.5B | 是 | Apache 2.0 | 低(CPM 单次 forward) |
Toto 2.0 是同时满足”开源 + 可证 scaling + 大尺寸 + 低延迟”四项的唯一选择。
工程意义:observability 厂商的护城河变浅
时序预测对 Datadog/Splunk/New Relic 这类 observability 厂商是核心能力——anomaly detection、capacity planning、SLO 预测,都建立在预测准确度上。
过去这是闭源算法的护城河。Toto 2.0 把它 Apache 2.0 放出来,相当于护城河变成开放高速路。中小 SaaS 监控厂商现在可以直接拿 313M 模型部署,不需要养自己的 ML 团队。
更深的影响:Toto 2.0 没用任何公开 forecasting 数据集预训练,全部基于 Datadog 内部 observability 数据 + 合成数据。这暗示了一个新的”数据护城河”——真实生产环境的时序数据规模 + 多样性,比任何公开数据集都强。下一波时序基础模型的胜负,可能取决于谁能拿到最多的真实数据,而不是谁的模型架构更巧妙。
五点工程建议
如果你打算用 Toto 2.0:
- 从 22M 开始:CPU 单条推理 8ms,足以覆盖 90% 的常规时序任务
- 级联部署:22M 做粗筛 + 1B/2.5B 处理疑难序列,成本能压到原来 1/10
- 微调几乎没必要:BOOM/GIFT-Eval/TIME 上 zero-shot 已经 SOTA,微调收益边际递减
- 关注 prefill 显存:CPM 需要把整个 mask 块塞进 attention,长 horizon 任务(>2048)显存压力大
- 不要混用其他时序库的 normalization:Toto 内部用了 RevIN,外面再做 z-score 会反而变差
一句话收尾
时序预测的 scaling law 之争,2026 年 5 月 22 日落幕——答案是成立。
接下来 12 个月,传统时序方法(ARIMA、Prophet、N-BEATS)会经历类似 NLP 圈在 2020 年的”GPT 化”:先是被质疑,然后被默默替换,最后变成教科书章节。
参考资料:
- Toto 2.0: Time series forecasting enters the scaling era — Datadog Blog
- GitHub - DataDog/toto
- arXiv 2407.07874 - Toto: Time Series Optimized Transformer for Observability
- Toto 2.0: Datadog Turns Observability Forecasting Into a Scaling Family - TSFM.ai
- arXiv 2505.14766 - This Time is Different: An Observability Perspective on TSFM