标签
本文介绍了一种失效关闭认证协议,用于确定在给定的固定决策接口和部署效用下,何时可以将预测排行榜的优胜者可靠地用作可部署的顶级建议。它提出了一种锁定原生审计,通过阻止明显的预测/部署优胜者反转来防止过度声明。
本文提出了RAVEN,这是一种混合专家框架,能够自适应地为每个输入样本确定时间上下文窗口,以处理非平稳金融时间序列。该方法在金融和交通基准上取得了最先进的性能。
亚马逊开源了 Chronos,这是一个时间序列预测模型,无需训练或特征工程即可开箱即用进行预测,其处理预测的方式类似于语言模型处理文本。
一篇关于AI模型规模扩展趋势的分析,发布于LessWrong,时间跨度为2023年至2031年。
介绍了DeXposure-Claw,一个基于预测的智能体系统,用于DeFi风险监管。该系统使用图时间序列基础模型来预测风险敞口网络,并通过确定性监控器与置信门来约束LLM生成的监管工单。同时提出了DeXposure-Bench,一个六维评估框架,用于与监管目标一致的评估。
介绍 ForecastBench-Sim,这是一个基于 Freeciv 游戏回放构建的模拟世界预测基准,旨在为评估 AI 系统的概率推理提供可控且可立即解析的任务。
谷歌发布了TimesFM,一个在1000亿真实世界时间序列数据上训练的时间序列预测模型,支持零样本预测,免费开源,可在普通电脑本地运行。
谷歌发布了TimesFM,这是一个用于零样本时间序列预测的AI模型,基于1000亿个真实数据点训练,免费且开源。
本文研究机器学习模型能否在预测美元/加元汇率方面击败随机游走基准,发现只有线性回归在统计上优于朴素模型,SHAP分析显示短期滞后项主导预测。
本文提出ORCA,一种通过学习预测错误的上下文来实现时间序列基础模型黑盒在线自适应的方法。该方法在五个TSFM和八个数据集上展示了有效性,解决了基于闭源API的模型自适应挑战。
介绍了行为预测器(BFs),它以推理轨迹为输入,并以极低的成本实现比前沿模型更准确的预测。
APEX是一个网络原生的解码器专用Transformer,针对无线边缘遥测数据的预测与异常检测而设计,预训练数据来自约4500个生产网络。在DHCP退化基准测试中,其MAE比最佳通用时间序列基础模型低18%,并能在边缘硬件上实现亚秒级推理。
本文提出了 Behavior Forecasters,一种从推理轨迹中预测 LRM 未来行为(如答案一致性和输入敏感性)的学习方法,以更低的成本超越了 GPT-5.4 和 Claude Opus 4.6。
本文介绍MF-Net,一种循环动力学模型,通过共享场状态表示多变量系统,并学习用于联合演化的机械转移。它在实现有竞争力的预测的同时,还能对学习到的关系进行可解释的结构化读取。
本文系统评估了11种用于基础模型预训练的合成时间序列生成器,发现生成器的排名在不同架构下不稳定,但所有生成器的等权重混合结果与最佳单个生成器相当或更优。将这种混合与真实数据融合可得到最强的预训练语料,从而将合成预训练重新定义为语料组合问题而非生成器选择问题。
本文提出UniTok,一种将连续时间序列转化为离散标记的通用分词器,以及UniTok-FM,一个基于下一标记预测预训练的基础模型。该模型支持零样本和提示增强预测,以及通过无需训练的上下文推理实现少样本生成和分类——这是以往工作未能实现的能力。
ReGeN是一个参考引导的生成流水线,用于多元时间序列数据。它将观测序列分解为周期性骨干、随机残差和跨变量依赖关系,以合成可控的合成数据。结果表明,生成的数据可以替代真实数据用于预测任务,且性能优于以往的合成数据生成器。