@ClementDelangue: 缩放定律终于适用于时间序列基础模型了吗？今天，@datadoghq 正在发布 Toto 2.0 权重……

X AI KOLs Following 2026/05/14 18:24 模型

time-series foundation-models scaling-laws open-weights forecasting benchmarks datascience

摘要

Datadog 发布 Toto 2.0，这是一个开源权重的时间序列基础模型系列，参数规模从 4M 到 2.5B，在三个基准测试上取得了最先进的结果。这些模型展示了时间序列的缩放定律，随着参数数量的增加性能可预测地提升。

缩放定律终于适用于时间序列基础模型了吗？今天，@datadoghq 在 @huggingface 上以 Apache 2.0 许可证发布了 Toto 2.0 权重。这是一个开源权重的时间序列基础模型家族，参数从 4M 到 2.5B，每个尺寸都在单一超参数配置下超越了前一个。在领先基准测试中首次：BOOM、GIFT-Eval 和 TIME。大多数 TSFM 家族会发布多个尺寸，但性能大致相同。但这个不一样。为什么重要：缩放定律为语言和视觉提供了计算、数据、参数与下游性能之间的可预测关系。时间序列之前没有这样的曲线。一旦有了它，你就可以自信地扩展数据和计算，并开始探索下一个数量级会出现哪些新能力。2.5B 开源权重：https://huggingface.co/Datadog/Toto-2.0-2.5B… 4M 开源权重：https://huggingface.co/Datadog/Toto-2.0-4m… 博客文章：https://datadoghq.com/blog/ai/toto-2/?utm_content=blog&utm_medium=organicsocial…

查看原文

查看缓存全文

缓存时间: 2026/05/14 18:42

扩展法则是否终于开始对时间序列基础模型发挥作用了？今天，@datadoghq 在 @huggingface 上以 Apache 2.0 许可证发布了 Toto 2.0 权重。这是一个从 4M 到 2.5B 参数的开源权重 TSFM 家族，采用单一超参数配置，每个规模都比前一个表现更优。在主流基准测试中首次全面领先：BOOM、GIFT-Eval 和 TIME。大多数 TSFM 家族推出的多个规模型号表现大致相同，但这一家族并非如此。为什么这很重要：扩展法则为语言和视觉领域提供了计算量、数据量、参数规模与下游性能之间可预测的关系。时间序列领域直到现在才拥有这条曲线。一旦拥有它，你就可以充满信心地扩展数据和计算量，并开始探索下一个数量级会出现哪些新能力。2.5B 开源权重：https://huggingface.co/Datadog/Toto-2.0-2.5B… 4M 开源权重：https://huggingface.co/Datadog/Toto-2.0-4m… 博文：https://datadoghq.com/blog/ai/toto-2/?utm_content=blog&utm_medium=organicsocial…

Datadog/Toto-2.0-2.5B · Hugging Face

来源：https://huggingface.co/Datadog/Toto-2.0-2.5B Toto（Time Series Optimized Transformer for Observability (https://www.datadoghq.com/knowledge-center/observability/)）是 Datadog (https://www.datadoghq.com/) 开发的多变量预测时间序列基础模型家族。Toto 2.0 是当前版本，采用 u-μP 扩展的 Transformer，参数规模从 4m 到 2.5B，所有模型均使用单一配方训练。预测质量随参数数量在整个家族中可靠提升。

该家族在三个预测基准测试上取得了新的最先进水平：BOOM (https://huggingface.co/spaces/Datadog/BOOM)（我们的可观测性基准）、GIFT-Eval (https://huggingface.co/spaces/Salesforce/GIFT-Eval)（标准的通用基准）以及最近发表的抗污染 TIME (https://arxiv.org/abs/2602.12147) 基准。

https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%93%8A-performance📊 性能

BOOM 和 GIFT-Eval 上的帕累托前沿每个 Toto 2.0 规模在 BOOM 和 GIFT-Eval 上都位于或接近帕累托前沿。三个最大的规模在 GIFT-Eval CRPS 排名中位列基础模型第一、第二、第三。在 TIME 上，Toto 2.0 规模在所有指标上占据前三名，领先于所有其他被评估的外部基础模型。

https://huggingface.co/Datadog/Toto-2.0-2.5B#%E2%9A%A1-quick-start⚡ 快速开始

推理代码可在 GitHub (https://github.com/DataDog/toto) 上获取。

https://huggingface.co/Datadog/Toto-2.0-2.5B#installation安装

pip install "toto-2 @ git+https://github.com/DataDog/toto.git#subdirectory=toto2"

https://huggingface.co/Datadog/Toto-2.0-2.5B#inference-example推理示例

`` import torch from toto2 import Toto2Model

model = Toto2Model.from_pretrained(“Datadog/Toto-2.0-2.5B”) device = torch.device(“cuda” if torch.cuda.is_available() else “cpu”) model = model.to(device).eval()

(batch, n_variates, time_steps)

target = torch.randn(1, 1, 512, device=device) target_mask = torch.ones_like(target, dtype=torch.bool) series_ids = torch.zeros(1, 1, dtype=torch.long, device=device)

Returns quantiles of shape (9, batch, n_variates, horizon)

Quantile levels: [0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9]

quantiles = model.forecast( {“target”: target, “target_mask”: target_mask, “series_ids”: series_ids}, horizon=96, decode_block_size=768, has_missing_values=False, ) ``

更多示例请参见快速入门笔记本 (https://github.com/DataDog/toto/blob/main/toto2/notebooks/quick_start.ipynb) 和 GluonTS 集成笔记本 (https://github.com/DataDog/toto/blob/main/toto2/notebooks/gluonts_integration.ipynb)。

https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%92%BE-available-checkpoints💾 可用检查点

所有五个 Toto 2.0 规模使用相同的训练配方；根据准确率/延迟预算选择规模。延迟是指单次传递预测 1,024 步、批次大小为 8、使用单个 A100 的前向传递时间。

模型	参数	权重 (fp32)	延迟	推荐用途
Toto‐2.0‐4m (https://huggingface.co/Datadog/Toto-2.0-4m)	4m	16 MB	~3.8 ms	边缘 / CPU 部署；延迟或内存预算最紧张的场景
Toto‐2.0‐22m (https://huggingface.co/Datadog/Toto-2.0-22m)	22m	84 MB	~5.0 ms	高效默认——参数减少约 7 倍，质量达到或超过 Toto 1.0
Toto‐2.0‐313m (https://huggingface.co/Datadog/Toto-2.0-313m)	313m	1.2 GB	~15.4 ms	强大的通用检查点；GIFT-Eval 上排名前 3 的基础模型
Toto‐2.0‐1B (https://huggingface.co/Datadog/Toto-2.0-1B)	1B	3.9 GB	~20.9 ms	生产工作负载的最佳质量/成本权衡
Toto‐2.0‐2.5B (https://huggingface.co/Datadog/Toto-2.0-2.5B)	2.5B	9.1 GB	~36.2 ms	最高准确率；每个基准测试上排名第一的基础模型

https://huggingface.co/Datadog/Toto-2.0-2.5B#%E2%9C%A8-key-features✨ 关键特性

**零样本预测：**无需针对特定时间序列进行微调即可进行预测。
**多变量支持：**通过交替的时间/变量注意力高效处理多个变量。
**概率预测：**通过分位数输出头生成点预测和不确定性估计。
**仅解码器架构：**支持可变的预测视野和上下文长度。
**u-μP 扩展：**单一训练配方可在所有五个规模（4m → 2.5B）之间干净地迁移。

https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%8F%97%EF%B8%8F-architecture🏗️ 架构

Toto 2.0 架构概览。一个仅解码器的分块 Transformer，其注意力层在输入的时序（因果）和变量（全连接）视图之间交替。Toto 2.0 增加了连续分块掩码 (CPM) 以实现单次并行解码、一个使用分位损失训练的分位数输出头、一个鲁棒的 arcsinh 输入缩放器、残差 MLP 分块投影，并使用 NorMuon 进行训练。详情请参阅技术报告 (https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%94%97-additional-resources)。

https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%94%97-additional-resources🔗 额外资源

技术报告——（即将发布）
博文 (https://www.datadoghq.com/blog/ai/toto-2/)
GitHub 仓库 (https://github.com/DataDog/toto)
Toto 2.0 合集 (https://huggingface.co/collections/Datadog/toto-20)——所有五个基础检查点
BOOM 数据集 (https://huggingface.co/datasets/Datadog/BOOM)——Datadog 的可观测性时间序列基准
Toto 1.0 权重 (https://huggingface.co/Datadog/Toto-Open-Base-1.0)

https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%93%96-citation📖 引用

（引用即将发布）

@ClementDelangue: 缩放定律终于适用于时间序列基础模型了吗？今天，@datadoghq 正在发布 Toto 2.0 权重……

Datadog/Toto-2.0-2.5B · Hugging Face

https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%93%8A-performance📊 性能

https://huggingface.co/Datadog/Toto-2.0-2.5B#%E2%9A%A1-quick-start⚡ 快速开始

https://huggingface.co/Datadog/Toto-2.0-2.5B#installation安装

https://huggingface.co/Datadog/Toto-2.0-2.5B#inference-example推理示例

(batch, n_variates, time_steps)

Returns quantiles of shape (9, batch, n_variates, horizon)

Quantile levels: [0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9]

https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%92%BE-available-checkpoints💾 可用检查点

https://huggingface.co/Datadog/Toto-2.0-2.5B#%E2%9C%A8-key-features✨ 关键特性

https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%8F%97%EF%B8%8F-architecture🏗️ 架构

https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%94%97-additional-resources🔗 额外资源

https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%93%96-citation📖 引用

相似文章

@tom_doerr: 在 16GB 内存 Mac 上运行 35B 模型 https://github.com/walter-grace/mac-code…

@WilliamBarrHeld: 要训练更好的开源模型，我们需要可预测的缩放。Delphi 是 Marin 迈出的第一步：我们预训练了许多小模型……

@raphaelsrty：今天我们开源 LateOn 与 DenseOn，两款 149 M 参数的开放检索模型

推出 gpt-oss

@AdinaYakup: Intern S2 预览上海人工智能实验室的科学多模态模型 @intern_lm 35B 在科学基准上与其自身1T模型表现相当…

提交意见反馈

Datadog/Toto-2.0-2.5B · Hugging Face

https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%93%8A-performance📊 性能

https://huggingface.co/Datadog/Toto-2.0-2.5B#%E2%9A%A1-quick-start⚡ 快速开始

https://huggingface.co/Datadog/Toto-2.0-2.5B#installation安装

https://huggingface.co/Datadog/Toto-2.0-2.5B#inference-example推理示例

(batch, n_variates, time_steps)

Returns quantiles of shape (9, batch, n_variates, horizon)

Quantile levels: [0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9]

https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%92%BE-available-checkpoints💾 可用检查点

https://huggingface.co/Datadog/Toto-2.0-2.5B#%E2%9C%A8-key-features✨ 关键特性

https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%8F%97%EF%B8%8F-architecture🏗️ 架构

https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%94%97-additional-resources🔗 额外资源

https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%93%96-citation📖 引用

相似文章

@tom_doerr: 在 16GB 内存 Mac 上运行 35B 模型 https://github.com/walter-grace/mac-code…

@WilliamBarrHeld: 要训练更好的开源模型，我们需要可预测的缩放。Delphi 是 Marin 迈出的第一步：我们预训练了许多小模型……

@raphaelsrty：今天我们开源 LateOn 与 DenseOn，两款 149 M 参数的开放检索模型

推出 gpt-oss

@AdinaYakup: Intern S2 预览 上海人工智能实验室的科学多模态模型 @intern_lm 35B 在科学基准上与其自身1T模型表现相当…

提交意见反馈

@AdinaYakup: Intern S2 预览上海人工智能实验室的科学多模态模型 @intern_lm 35B 在科学基准上与其自身1T模型表现相当…