@ClementDelangue: 缩放定律终于适用于时间序列基础模型了吗?今天,@datadoghq 正在发布 Toto 2.0 权重……
摘要
Datadog 发布 Toto 2.0,这是一个开源权重的时间序列基础模型系列,参数规模从 4M 到 2.5B,在三个基准测试上取得了最先进的结果。这些模型展示了时间序列的缩放定律,随着参数数量的增加性能可预测地提升。
查看缓存全文
缓存时间: 2026/05/14 18:42
扩展法则是否终于开始对时间序列基础模型发挥作用了?今天,@datadoghq 在 @huggingface 上以 Apache 2.0 许可证发布了 Toto 2.0 权重。这是一个从 4M 到 2.5B 参数的开源权重 TSFM 家族,采用单一超参数配置,每个规模都比前一个表现更优。在主流基准测试中首次全面领先:BOOM、GIFT-Eval 和 TIME。大多数 TSFM 家族推出的多个规模型号表现大致相同,但这一家族并非如此。为什么这很重要:扩展法则为语言和视觉领域提供了计算量、数据量、参数规模与下游性能之间可预测的关系。时间序列领域直到现在才拥有这条曲线。一旦拥有它,你就可以充满信心地扩展数据和计算量,并开始探索下一个数量级会出现哪些新能力。2.5B 开源权重:https://huggingface.co/Datadog/Toto-2.0-2.5B… 4M 开源权重:https://huggingface.co/Datadog/Toto-2.0-4m… 博文:https://datadoghq.com/blog/ai/toto-2/?utm_content=blog&utm_medium=organicsocial…
Datadog/Toto-2.0-2.5B · Hugging Face
来源:https://huggingface.co/Datadog/Toto-2.0-2.5B Toto(Time Series Optimized Transformer for Observability (https://www.datadoghq.com/knowledge-center/observability/))是 Datadog (https://www.datadoghq.com/) 开发的多变量预测时间序列基础模型家族。Toto 2.0 是当前版本,采用 u-μP 扩展的 Transformer,参数规模从 4m 到 2.5B,所有模型均使用单一配方训练。预测质量随参数数量在整个家族中可靠提升。
该家族在三个预测基准测试上取得了新的最先进水平:BOOM (https://huggingface.co/spaces/Datadog/BOOM)(我们的可观测性基准)、GIFT-Eval (https://huggingface.co/spaces/Salesforce/GIFT-Eval)(标准的通用基准)以及最近发表的抗污染 TIME (https://arxiv.org/abs/2602.12147) 基准。
https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%93%8A-performance📊 性能
BOOM 和 GIFT-Eval 上的帕累托前沿每个 Toto 2.0 规模在 BOOM 和 GIFT-Eval 上都位于或接近帕累托前沿。三个最大的规模在 GIFT-Eval CRPS 排名中位列基础模型第一、第二、第三。在 TIME 上,Toto 2.0 规模在所有指标上占据前三名,领先于所有其他被评估的外部基础模型。
https://huggingface.co/Datadog/Toto-2.0-2.5B#%E2%9A%A1-quick-start⚡ 快速开始
推理代码可在 GitHub (https://github.com/DataDog/toto) 上获取。
https://huggingface.co/Datadog/Toto-2.0-2.5B#installation安装
pip install "toto-2 @ git+https://github.com/DataDog/toto.git#subdirectory=toto2"
https://huggingface.co/Datadog/Toto-2.0-2.5B#inference-example推理示例
`` import torch from toto2 import Toto2Model
model = Toto2Model.from_pretrained(“Datadog/Toto-2.0-2.5B”) device = torch.device(“cuda” if torch.cuda.is_available() else “cpu”) model = model.to(device).eval()
(batch, n_variates, time_steps)
target = torch.randn(1, 1, 512, device=device) target_mask = torch.ones_like(target, dtype=torch.bool) series_ids = torch.zeros(1, 1, dtype=torch.long, device=device)
Returns quantiles of shape (9, batch, n_variates, horizon)
Quantile levels: [0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9]
quantiles = model.forecast( {“target”: target, “target_mask”: target_mask, “series_ids”: series_ids}, horizon=96, decode_block_size=768, has_missing_values=False, ) ``
更多示例请参见快速入门笔记本 (https://github.com/DataDog/toto/blob/main/toto2/notebooks/quick_start.ipynb) 和 GluonTS 集成笔记本 (https://github.com/DataDog/toto/blob/main/toto2/notebooks/gluonts_integration.ipynb)。
https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%92%BE-available-checkpoints💾 可用检查点
所有五个 Toto 2.0 规模使用相同的训练配方;根据准确率/延迟预算选择规模。延迟是指单次传递预测 1,024 步、批次大小为 8、使用单个 A100 的前向传递时间。
| 模型 | 参数 | 权重 (fp32) | 延迟 | 推荐用途 |
|---|---|---|---|---|
| Toto‐2.0‐4m (https://huggingface.co/Datadog/Toto-2.0-4m) | 4m | 16 MB | ~3.8 ms | 边缘 / CPU 部署;延迟或内存预算最紧张的场景 |
| Toto‐2.0‐22m (https://huggingface.co/Datadog/Toto-2.0-22m) | 22m | 84 MB | ~5.0 ms | 高效默认——参数减少约 7 倍,质量达到或超过 Toto 1.0 |
| Toto‐2.0‐313m (https://huggingface.co/Datadog/Toto-2.0-313m) | 313m | 1.2 GB | ~15.4 ms | 强大的通用检查点;GIFT-Eval 上排名前 3 的基础模型 |
| Toto‐2.0‐1B (https://huggingface.co/Datadog/Toto-2.0-1B) | 1B | 3.9 GB | ~20.9 ms | 生产工作负载的最佳质量/成本权衡 |
| Toto‐2.0‐2.5B (https://huggingface.co/Datadog/Toto-2.0-2.5B) | 2.5B | 9.1 GB | ~36.2 ms | 最高准确率;每个基准测试上排名第一的基础模型 |
https://huggingface.co/Datadog/Toto-2.0-2.5B#%E2%9C%A8-key-features✨ 关键特性
- **零样本预测:**无需针对特定时间序列进行微调即可进行预测。
- **多变量支持:**通过交替的时间/变量注意力高效处理多个变量。
- **概率预测:**通过分位数输出头生成点预测和不确定性估计。
- **仅解码器架构:**支持可变的预测视野和上下文长度。
- **u-μP 扩展:**单一训练配方可在所有五个规模(4m → 2.5B)之间干净地迁移。
https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%8F%97%EF%B8%8F-architecture🏗️ 架构
Toto 2.0 架构概览。一个仅解码器的分块 Transformer,其注意力层在输入的时序(因果)和变量(全连接)视图之间交替。Toto 2.0 增加了连续分块掩码 (CPM) 以实现单次并行解码、一个使用分位损失训练的分位数输出头、一个鲁棒的 arcsinh 输入缩放器、残差 MLP 分块投影,并使用 NorMuon 进行训练。详情请参阅技术报告 (https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%94%97-additional-resources)。
https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%94%97-additional-resources🔗 额外资源
- 技术报告——(即将发布)
- 博文 (https://www.datadoghq.com/blog/ai/toto-2/)
- GitHub 仓库 (https://github.com/DataDog/toto)
- Toto 2.0 合集 (https://huggingface.co/collections/Datadog/toto-20)——所有五个基础检查点
- BOOM 数据集 (https://huggingface.co/datasets/Datadog/BOOM)——Datadog 的可观测性时间序列基准
- Toto 1.0 权重 (https://huggingface.co/Datadog/Toto-Open-Base-1.0)
https://huggingface.co/Datadog/Toto-2.0-2.5B#%F0%9F%93%96-citation📖 引用
(引用即将发布)
相似文章
@tom_doerr: 在 16GB 内存 Mac 上运行 35B 模型 https://github.com/walter-grace/mac-code…
该工具支持通过从 SSD 流式加载模型权重,在 16GB Mac 上运行 Qwen3.5-35B 等大型语言模型,经优化配置后最高可达 30 tok/s。
@WilliamBarrHeld: 要训练更好的开源模型,我们需要可预测的缩放。Delphi 是 Marin 迈出的第一步:我们预训练了许多小模型……
由 William Barr Held 领导的 Marin AI 研究团队推出了 Delphi,这是一种通过预训练小模型来准确预测更大规模 25B 参数训练结果的方法论。该研究旨在建立可预测的缩放规律,以实现更高效的人工智能开源模型开发。
@raphaelsrty:今天我们开源 LateOn 与 DenseOn,两款 149 M 参数的开放检索模型
Raphael 开源两款检索模型:LateOn(ColBERT 多向量)与 DenseOn(单向量),均 149 M 参数,在 BEIR 上超越体量 4 倍的大模型。
推出 gpt-oss
OpenAI 发布 gpt-oss-120b 和 gpt-oss-20b,两款最先进的开放权重语言模型,采用 Apache 2.0 许可证,性能与专有模型相当,可针对消费级硬件和边缘设备进行优化。两款模型均展现出强大的推理和工具使用能力,并进行了全面的安全评估。
@AdinaYakup: Intern S2 预览 上海人工智能实验室的科学多模态模型 @intern_lm 35B 在科学基准上与其自身1T模型表现相当…
上海人工智能实验室发布 Intern S2,一个35B的科学多模态模型,在科学基准上与其自身1T模型表现相当,引入了Task Scaling作为新的扩展维度。采用Apache 2.0许可证。