LEAF：事件增强预测的实时基准

arXiv cs.LG 2026/05/19 04:00 论文

benchmark forecasting llm event-augmented living-benchmark evaluation

摘要

LEAF是一个用于评估大语言模型在事件增强预测任务（如未来事件概率和时间序列预测）上的实时基准。它采用递归检索代理系统结合双代理交叉验证来提供相关的辅助文本，并表明大语言模型能够利用复杂事件来提升预测性能。

arXiv:2605.16358v1 公告类型：新摘要：大语言模型（LLMs）越来越多地被应用于预测。为了评估这一能力同时减轻预训练数据污染，人们提出了若干实时基准。然而，现有基准要么因数据稀缺而缺乏准确预测所需的多维事件，要么专注于相对封闭的环境。为了评估大语言模型在复杂现实场景中的预测能力，我们提出了LEAF——首个用于事件增强预测任务的实时基准，包括未来事件概率、趋势和时间序列预测。LEAF采用递归检索代理系统配合双代理交叉验证，为预测提供全面且相关的辅助文本。通过评估最先进的专有和开源权重的大语言模型，我们发现这些模型能够利用从复杂事件中提取的信号来提升预测性能。在股票领域，我们发现大语言模型在其自信地认为更具可预测性的股票上表现更好。此外，这些事件与目标股票表现出强相关性。为此，LEAF提供了一个必要的、动态更新的测试平台，以持续跟踪和推动事件驱动预测任务的进展。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:42

# LEAF：事件增强预测的活基准
来源：https://arxiv.org/abs/2605.16358
查看PDF (https://arxiv.org/pdf/2605.16358)

> 摘要：大型语言模型（LLMs）越来越多地被应用于预测任务。为了评估这一能力，同时减轻预训练数据污染的影响，已有多个活基准被提出。然而，现有基准要么因数据稀缺而缺乏准确预测所需的多维事件，要么侧重于相对封闭的环境。为了评估LLMs在复杂真实场景中的预测能力，我们提出了LEAF——首个面向事件增强预测任务的活基准，涵盖未来事件概率、趋势及时间序列预测。LEAF采用递归检索代理系统，并配合双代理交叉验证，为预测提供全面且相关的辅助文本。通过对最先进的专有与开源权重LLMs进行评估，我们发现这些模型能够利用从复杂事件中提取的信号来提升预测性能。在股票领域，我们观察到LLMs在其自信判定为更可预测的股票上取得了更好的表现。此外，事件与目标股票之间表现出强相关性。因此，LEAF提供了一个必要的、动态更新的测试平台，以持续跟踪并推动事件驱动预测任务的进展。

## 投稿历史

来自：Mingtian Tan [查看邮箱] **\[v1\]** 2026年5月9日星期六 03:17:59 UTC (27,843 KB)

LEAF：事件增强预测的实时基准

相似文章

ForeSci：评估LLM代理的前瞻性AI研究判断

训练大型语言模型预测临床事件

AgentForesight：多智能体系统中用于早期故障预测的在线审计

@NeoAIForecast: https://x.com/NeoAIForecast/status/2058479806048792583

通过检索增强大型语言模型提升金融情感分析

提交意见反馈