LEAF:事件增强预测的实时基准

arXiv cs.LG 论文

摘要

LEAF是一个用于评估大语言模型在事件增强预测任务(如未来事件概率和时间序列预测)上的实时基准。它采用递归检索代理系统结合双代理交叉验证来提供相关的辅助文本,并表明大语言模型能够利用复杂事件来提升预测性能。

arXiv:2605.16358v1 公告类型:新 摘要:大语言模型(LLMs)越来越多地被应用于预测。为了评估这一能力同时减轻预训练数据污染,人们提出了若干实时基准。然而,现有基准要么因数据稀缺而缺乏准确预测所需的多维事件,要么专注于相对封闭的环境。为了评估大语言模型在复杂现实场景中的预测能力,我们提出了LEAF——首个用于事件增强预测任务的实时基准,包括未来事件概率、趋势和时间序列预测。LEAF采用递归检索代理系统配合双代理交叉验证,为预测提供全面且相关的辅助文本。通过评估最先进的专有和开源权重的大语言模型,我们发现这些模型能够利用从复杂事件中提取的信号来提升预测性能。在股票领域,我们发现大语言模型在其自信地认为更具可预测性的股票上表现更好。此外,这些事件与目标股票表现出强相关性。为此,LEAF提供了一个必要的、动态更新的测试平台,以持续跟踪和推动事件驱动预测任务的进展。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:42

# LEAF:事件增强预测的活基准
来源:https://arxiv.org/abs/2605.16358
查看PDF (https://arxiv.org/pdf/2605.16358)

> 摘要:大型语言模型(LLMs)越来越多地被应用于预测任务。为了评估这一能力,同时减轻预训练数据污染的影响,已有多个活基准被提出。然而,现有基准要么因数据稀缺而缺乏准确预测所需的多维事件,要么侧重于相对封闭的环境。为了评估LLMs在复杂真实场景中的预测能力,我们提出了LEAF——首个面向事件增强预测任务的活基准,涵盖未来事件概率、趋势及时间序列预测。LEAF采用递归检索代理系统,并配合双代理交叉验证,为预测提供全面且相关的辅助文本。通过对最先进的专有与开源权重LLMs进行评估,我们发现这些模型能够利用从复杂事件中提取的信号来提升预测性能。在股票领域,我们观察到LLMs在其自信判定为更可预测的股票上取得了更好的表现。此外,事件与目标股票之间表现出强相关性。因此,LEAF提供了一个必要的、动态更新的测试平台,以持续跟踪并推动事件驱动预测任务的进展。

## 投稿历史

来自:Mingtian Tan [查看邮箱] **\[v1\]** 2026年5月9日星期六 03:17:59 UTC (27,843 KB)

相似文章

ForeSci:评估LLM代理的前瞻性AI研究判断

arXiv cs.AI

介绍了ForeSci,一个时间控制基准,用于评估LLM代理是否能够基于历史证据做出前瞻性研究判断。它包含跨越四个AI领域的500个任务,结果表明显式的证据组织提高了可追溯性,但揭示了反复出现的证据-决策解耦。

训练大型语言模型预测临床事件

arXiv cs.LG

本文通过将按时间排序的临床笔记转换为预测示例,将前瞻性学习扩展到临床事件预测。在120B模型上使用LoRA适配器改善了校准性能,并在留出问题上优于GPT-5。

AgentForesight:多智能体系统中用于早期故障预测的在线审计

arXiv cs.CL

本文介绍了 AgentForesight,这是一个用于基于大语言模型(LLM)的多智能体系统的在线审计和早期故障预测框架。文章提出了一个新数据集 AFTraj-22K,以及一个专用模型 AgentForesight-7B,该模型在检测轨迹执行过程中的决定性错误方面优于领先的专有模型。