标签
AGORA 是一个新的基准,用于评估大型语言模型在工作场所文档上进行基于档案的推理任务,包含 362 个问题,涉及 9,664 份真实文档。最强模型仅达到 59.4% 的准确率,凸显出巨大的改进空间。
Nemotron 3 Ultra 是一个550B参数的混合Mamba-Attention专家混合语言模型,在20T tokens上预训练,扩展至1M上下文,并通过SFT、RL和MOPD进行后训练。相比同等精度的一流LLM,其推理吞吐量最高可提升6倍,并已开源。
PhotoCraft 提出了一种无需训练的层次化记忆系统,用于照片搜索智能体,集成了工作记忆、情景记忆和语义记忆,以维持长期上下文并在任务间迁移知识,在 DISBench 上取得了高达 18.5% 的提升。
本文介绍了自适应潜在智能体推理(ALAR),一种针对LLM智能体的双模式框架,它使用紧凑的潜在推理处理常规轮次,并选择性地升级为显式思维链以应对更困难的决策,实现了高达84.6%的令牌减少,同时保持任务准确性。
本文介绍了DAR(Deontic Agentic Reasoning),一个智能体框架,使LLM能够交互式地查询法律法规和政策,用于法律/监管推理任务。在DeonticBench上评估的结果表明,智能体引导可以提升前沿模型,但可能会导致较弱模型在数值任务上表现下降,同时消耗更多令牌。
CP-Agent 提出了一种借助大型语言模型的校准风险控制方法,用于反馈驱动型竞赛编程,无需参数更新即可在基准测试上取得显著改进。
本文提出 SAM,一个状态自适应记忆框架,能够动态管理长程智能体推理中的交互历史,实现意图驱动的回忆,而无需重新训练基础模型。它在多个基准测试(如 BrowseComp 和 HLE)上优于强基线方法。
OpenAI 的 GPT-5.5 模型在复杂的智能体任务和代码生成方面显示出显著改进,超越了先前版本以及如 Claude Opus 等竞争模型。
介绍了 SR²AM,一种通过自我调节的模拟规划实现高效代理推理的框架,在推理 token 减少 26-95% 的同时,达到了与 20-30 倍参数规模模型相竞争的性能。
CopT为大型语言模型引入了一种对比性在线思考框架,首先生成草稿答案,然后通过对比验证和动态思考来提高准确性并减少token消耗。在数学、代码和智能体推理任务上,准确率最高提升23%,token使用量最多降低57%。
VideoSeeker 引入了一种实例级视频理解的新范式,将智能体推理与视觉提示相结合,通过自动化数据合成和强化学习实现卓越性能,超越了 GPT-4o 和 Gemini-2.5-Pro。
ATLAS提出了一种视觉推理框架,该框架通过功能标记将智能体操作和隐式表示相结合,实现了通过下一个标记预测和强化学习进行高效训练,同时避免了中间图像的生成。
本文提出一种探索感知的强化学习框架,使LLM代理仅在不确定性高时自适应探索,从而提升在基于文本和基于GUI的基准测试上的性能。
本文介绍了 FlowAgent,这是一个新颖的框架,它利用条件流匹配将工具链重新概念化为连续轨迹生成,以提高长时序智能体推理的鲁棒性。
分析Google AlphaEarth在1210万美国样本上的64维嵌入流形,揭示其非欧结构与向量算术失效,并构建具备几何感知工具的智能体系统,在环境查询上超越参数基线。