标签
本文介绍了解释质量标记(EQMs),这是一组由大语言模型评分的60种推理模式,用于衡量预测锦标赛中自然语言解释的质量。通过分析超过55,000个预测-理由配对,EQMs在预测层面和预测者层面都预测了准确性,优于之前的方法。
本文介绍了一个统一的决策理论预训练框架,用于基于神经网络的时间序列估计器,该框架在分层模拟上进行训练以逼近近最优决策规则。实验表明,所得估计器在合成和现实基准上均优于最大似然估计等传统方法。
本文提出了 KARMA,一种通过构建捕获时间依赖性的 K 阶马尔可夫代理模型来解释多变量时间序列预测模型的方法,提供了五级全局解释层级。
Darts,一个广受欢迎的开源Python时间序列分析库,引入了一个统一的FoundationModel类集合,该集合整合了多种时间序列基础模型(Chronos-2、TimesFM 2.5、TiRex、PatchTST-FM),通过标准化接口和最小依赖实现零样本和微调预测。
本文介绍了一种失效关闭认证协议,用于确定在给定的固定决策接口和部署效用下,何时可以将预测排行榜的优胜者可靠地用作可部署的顶级建议。它提出了一种锁定原生审计,通过阻止明显的预测/部署优胜者反转来防止过度声明。
本文表明,精心的预处理——尤其是上下文长度选择、归一化和正则化——可以使简单的线性模型(如 Ridge 回归)在时间序列预测基准测试中与大型 Transformer、MLP 和 CNN 模型相竞争或更优。
EO-WM提出了一种视频扩散变换器,用于概率性地球观测预测,该模型融入了物理信息条件,以捕捉天气驱动的不确定性,从而在极端天气下实现了对植被指数的更好预测。
本文提出了RAVEN,这是一种混合专家框架,能够自适应地为每个输入样本确定时间上下文窗口,以处理非平稳金融时间序列。该方法在金融和交通基准上取得了最先进的性能。
亚马逊开源了 Chronos,这是一个时间序列预测模型,无需训练或特征工程即可开箱即用进行预测,其处理预测的方式类似于语言模型处理文本。
一篇关于AI模型规模扩展趋势的分析,发布于LessWrong,时间跨度为2023年至2031年。
Foresight by Lightning Rod 是一款宣称可以预测任何事物的 AI 工具,已上线 Product Hunt。
介绍了DeXposure-Claw,一个基于预测的智能体系统,用于DeFi风险监管。该系统使用图时间序列基础模型来预测风险敞口网络,并通过确定性监控器与置信门来约束LLM生成的监管工单。同时提出了DeXposure-Bench,一个六维评估框架,用于与监管目标一致的评估。
介绍 ForecastBench-Sim,这是一个基于 Freeciv 游戏回放构建的模拟世界预测基准,旨在为评估 AI 系统的概率推理提供可控且可立即解析的任务。
谷歌发布了TimesFM,一个在1000亿真实世界时间序列数据上训练的时间序列预测模型,支持零样本预测,免费开源,可在普通电脑本地运行。
谷歌发布了TimesFM,这是一个用于零样本时间序列预测的AI模型,基于1000亿个真实数据点训练,免费且开源。
本文研究机器学习模型能否在预测美元/加元汇率方面击败随机游走基准,发现只有线性回归在统计上优于朴素模型,SHAP分析显示短期滞后项主导预测。
本文提出ORCA,一种通过学习预测错误的上下文来实现时间序列基础模型黑盒在线自适应的方法。该方法在五个TSFM和八个数据集上展示了有效性,解决了基于闭源API的模型自适应挑战。