@ClementDelangue: 缩放定律终于适用于时间序列基础模型了吗?今天,@datadoghq 正在发布 Toto 2.0 权重……

X AI KOLs Following 模型

摘要

Datadog 发布 Toto 2.0,这是一个开源权重的时间序列基础模型系列,参数规模从 4M 到 2.5B,在三个基准测试上取得了最先进的结果。这些模型展示了时间序列的缩放定律,随着参数数量的增加性能可预测地提升。

缩放定律终于适用于时间序列基础模型了吗?今天,@datadoghq 在 @huggingface 上以 Apache 2.0 许可证发布了 Toto 2.0 权重。这是一个开源权重的时间序列基础模型家族,参数从 4M 到 2.5B,每个尺寸都在单一超参数配置下超越了前一个。在领先基准测试中首次:BOOM、GIFT-Eval 和 TIME。大多数 TSFM 家族会发布多个尺寸,但性能大致相同。但这个不一样。为什么重要:缩放定律为语言和视觉提供了计算、数据、参数与下游性能之间的可预测关系。时间序列之前没有这样的曲线。一旦有了它,你就可以自信地扩展数据和计算,并开始探索下一个数量级会出现哪些新能力。2.5B 开源权重:https://huggingface.co/Datadog/Toto-2.0-2.5B… 4M 开源权重:https://huggingface.co/Datadog/Toto-2.0-4m… 博客文章:https://datadoghq.com/blog/ai/toto-2/?utm_content=blog&utm_medium=organicsocial…
查看原文
查看缓存全文

缓存时间: 2026/05/14 18:42

扩展法则是否终于开始对时间序列基础模型发挥作用了?今天,@datadoghq 在 @huggingface 上以 Apache 2.0 许可证发布了 Toto 2.0 权重。这是一个从 4M 到 2.5B 参数的开源权重 TSFM 家族,采用单一超参数配置,每个规模都比前一个表现更优。在主流基准测试中首次全面领先:BOOM、GIFT-Eval 和 TIME。大多数 TSFM 家族推出的多个规模型号表现大致相同,但这一家族并非如此。为什么这很重要:扩展法则为语言和视觉领域提供了计算量、数据量、参数规模与下游性能之间可预测的关系。时间序列领域直到现在才拥有这条曲线。一旦拥有它,你就可以充满信心地扩展数据和计算量,并开始探索下一个数量级会出现哪些新能力。2.5B 开源权重:https://huggingface.co/Datadog/Toto-2.0-2.5B… 4M 开源权重:https://huggingface.co/Datadog/Toto-2.0-4m… 博文:https://datadoghq.com/blog/ai/toto-2/?utm_content=blog&utm_medium=organicsocial…


Datadog/Toto-2.0-2.5B · Hugging Face

来源:https://huggingface.co/Datadog/Toto-2.0-2.5B Toto(Time Series Optimized Transformer for Observability (https://www.datadoghq.com/knowledge-center/observability/))是 Datadog (https://www.datadoghq.com/) 开发的多变量预测时间序列基础模型家族。Toto 2.0 是当前版本,采用 u-μP 扩展的 Transformer,参数规模从 4m 到 2.5B,所有模型均使用单一配方训练。预测质量随参数数量在整个家族中可靠提升。

该家族在三个预测基准测试上取得了新的最先进水平:BOOM (https://huggingface.co/spaces/Datadog/BOOM)(我们的可观测性基准)、GIFT-Eval (https://huggingface.co/spaces/Salesforce/GIFT-Eval)(标准的通用基准)以及最近发表的抗污染 TIME (https://arxiv.org/abs/2602.12147) 基准。

https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%93%8A-performance📊 性能

BOOM 和 GIFT-Eval 上的帕累托前沿每个 Toto 2.0 规模在 BOOM 和 GIFT-Eval 上都位于或接近帕累托前沿。三个最大的规模在 GIFT-Eval CRPS 排名中位列基础模型第一、第二、第三。在 TIME 上,Toto 2.0 规模在所有指标上占据前三名,领先于所有其他被评估的外部基础模型。

https://huggingface.co/Datadog/Toto-2.0-2.5B#%E2%9A%A1-quick-start⚡ 快速开始

推理代码可在 GitHub (https://github.com/DataDog/toto) 上获取。

https://huggingface.co/Datadog/Toto-2.0-2.5B#installation安装

pip install "toto-2 @ git+https://github.com/DataDog/toto.git#subdirectory=toto2"

https://huggingface.co/Datadog/Toto-2.0-2.5B#inference-example推理示例

`` import torch from toto2 import Toto2Model

model = Toto2Model.from_pretrained(“Datadog/Toto-2.0-2.5B”) device = torch.device(“cuda” if torch.cuda.is_available() else “cpu”) model = model.to(device).eval()

(batch, n_variates, time_steps)

target = torch.randn(1, 1, 512, device=device) target_mask = torch.ones_like(target, dtype=torch.bool) series_ids = torch.zeros(1, 1, dtype=torch.long, device=device)

Returns quantiles of shape (9, batch, n_variates, horizon)

Quantile levels: [0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9]

quantiles = model.forecast( {“target”: target, “target_mask”: target_mask, “series_ids”: series_ids}, horizon=96, decode_block_size=768, has_missing_values=False, ) ``

更多示例请参见快速入门笔记本 (https://github.com/DataDog/toto/blob/main/toto2/notebooks/quick_start.ipynb) 和 GluonTS 集成笔记本 (https://github.com/DataDog/toto/blob/main/toto2/notebooks/gluonts_integration.ipynb)。

https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%92%BE-available-checkpoints💾 可用检查点

所有五个 Toto 2.0 规模使用相同的训练配方;根据准确率/延迟预算选择规模。延迟是指单次传递预测 1,024 步、批次大小为 8、使用单个 A100 的前向传递时间。

模型参数权重 (fp32)延迟推荐用途
Toto‐2.0‐4m (https://huggingface.co/Datadog/Toto-2.0-4m)4m16 MB~3.8 ms边缘 / CPU 部署;延迟或内存预算最紧张的场景
Toto‐2.0‐22m (https://huggingface.co/Datadog/Toto-2.0-22m)22m84 MB~5.0 ms高效默认——参数减少约 7 倍,质量达到或超过 Toto 1.0
Toto‐2.0‐313m (https://huggingface.co/Datadog/Toto-2.0-313m)313m1.2 GB~15.4 ms强大的通用检查点;GIFT-Eval 上排名前 3 的基础模型
Toto‐2.0‐1B (https://huggingface.co/Datadog/Toto-2.0-1B)1B3.9 GB~20.9 ms生产工作负载的最佳质量/成本权衡
Toto‐2.0‐2.5B (https://huggingface.co/Datadog/Toto-2.0-2.5B)2.5B9.1 GB~36.2 ms最高准确率;每个基准测试上排名第一的基础模型

https://huggingface.co/Datadog/Toto-2.0-2.5B#%E2%9C%A8-key-features✨ 关键特性

  • **零样本预测:**无需针对特定时间序列进行微调即可进行预测。
  • **多变量支持:**通过交替的时间/变量注意力高效处理多个变量。
  • **概率预测:**通过分位数输出头生成点预测和不确定性估计。
  • **仅解码器架构:**支持可变的预测视野和上下文长度。
  • **u-μP 扩展:**单一训练配方可在所有五个规模(4m → 2.5B)之间干净地迁移。

https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%8F%97%EF%B8%8F-architecture🏗️ 架构

Toto 2.0 架构概览。一个仅解码器的分块 Transformer,其注意力层在输入的时序(因果)和变量(全连接)视图之间交替。Toto 2.0 增加了连续分块掩码 (CPM) 以实现单次并行解码、一个使用分位损失训练的分位数输出头、一个鲁棒的 arcsinh 输入缩放器、残差 MLP 分块投影,并使用 NorMuon 进行训练。详情请参阅技术报告 (https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%94%97-additional-resources)。

https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%94%97-additional-resources🔗 额外资源

  • 技术报告——(即将发布)
  • 博文 (https://www.datadoghq.com/blog/ai/toto-2/)
  • GitHub 仓库 (https://github.com/DataDog/toto)
  • Toto 2.0 合集 (https://huggingface.co/collections/Datadog/toto-20)——所有五个基础检查点
  • BOOM 数据集 (https://huggingface.co/datasets/Datadog/BOOM)——Datadog 的可观测性时间序列基准
  • Toto 1.0 权重 (https://huggingface.co/Datadog/Toto-Open-Base-1.0)

https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%93%96-citation📖 引用

(引用即将发布)

相似文章

推出 gpt-oss

OpenAI Blog

OpenAI 发布 gpt-oss-120b 和 gpt-oss-20b,两款最先进的开放权重语言模型,采用 Apache 2.0 许可证,性能与专有模型相当,可针对消费级硬件和边缘设备进行优化。两款模型均展现出强大的推理和工具使用能力,并进行了全面的安全评估。