long-horizon-reasoning

#long-horizon-reasoning

LongMedBench：面向长时程临床决策的医疗智能体基准测试

arXiv cs.AI ↗ · 2026-07-13 缓存

LongMedBench 是一个新的基准测试，用于评估基于LLM的医疗智能体在长时程临床决策中的表现。它使用来自 MIMIC-IV 的真实电子健康记录数据，包含335名具有多次就诊记录的患者，并提出了针对事实问答、时序推理和长时程决策的评估套件。

0 人收藏 0 人点赞

#long-horizon-reasoning

X AI KOLs Timeline ↗ · 2026-07-08 缓存

这篇 ICML 论文介绍了递归模型，这些模型递归地调用自身在隔离上下文中解决子任务，证明它们可以在长时推理中超越上下文受限的自回归模型。在 SAT 求解和围棋博弈树搜索上的实验表明，使用较小的活动上下文能提高准确性。

0 人收藏 0 人点赞

#long-horizon-reasoning

TLDR AI ↗ · 2026-06-16 缓存

Sakana AI 发布其首款商业产品 Sakana Marlin，这是一款自主研究助手，可在数小时内完成策略工作，生成结构化的幻灯片和详细报告。

0 人收藏 0 人点赞

#long-horizon-reasoning

arXiv cs.CL ↗ · 2026-06-02 缓存

本文介绍了SPADER，一个用于多答案问答的强化学习框架，它使用逐步同行优势进行信用分配，并采用多样性感知探索奖励来提高长尾实体的召回率，在多个基准测试上取得了更好的性能。

0 人收藏 0 人点赞

#long-horizon-reasoning

Hugging Face Daily Papers ↗ · 2026-05-23 缓存

本文提出 SAM，一个状态自适应记忆框架，能够动态管理长程智能体推理中的交互历史，实现意图驱动的回忆，而无需重新训练基础模型。它在多个基准测试（如 BrowseComp 和 HLE）上优于强基线方法。

0 人收藏 0 人点赞

#long-horizon-reasoning

Hugging Face Daily Papers ↗ · 2026-05-13 缓存

本文提出了“先绘图后行动”范式（MAP），这是一个即插即用的框架，在执行前将环境理解前置到交互式LLM智能体中，在多个基准测试中取得了一致性的性能提升，并使前沿模型在25个游戏环境中的22个上超越了接近零的基线性能。

0 人收藏 0 人点赞

#long-horizon-reasoning

Hugging Face Daily Papers ↗ · 2026-05-11 缓存

HAGE引入了一种加权多关系记忆框架，能够在统一关系记忆图上实现查询条件化的遍历，通过自适应记忆检索和基于强化学习的优化来提高长程推理准确性。

0 人收藏 0 人点赞