标签
R-APS(反思性对抗帕累托搜索)是一种面向约束设计任务的新方法,通过跨三个时间尺度的推理模式分解,解决了基于LLM的智能体系统中的三类结构性缺陷——错误传播、鲁棒性评估与知识失效,且无需微调。在平面机构综合任务上的评估结果表明,与基线方法相比,R-APS实现了3.5倍更紧的鲁棒性证书、46%更快的首次准入迭代速度,以及2.1倍的Chamfer距离缩减。
MAVEN 是一种轻量级符号推理框架,通过模块化验证和自适应工具编排,提升了智能体工具调用的泛化能力。它在新的压力测试基准 MAVEN-Bench 上取得了显著的准确率提升,并且以极低的成本与专有模型保持竞争力。
本文介绍了'组合坍缩'这一现象,即语言模型虽然拥有稳定的事实知识,但仍无法将这些知识组合成正确的多跳推理,并提出了一个双门协议,以将组合失败与原子知识不稳定性分离开来。
本研究论文探讨了Transformer模型(特别是BERT)在学习过程中产生的捷径策略如何削弱其持续组合推理能力。研究将BERT与ALBERT进行对比,发现ALBERT的循环特性为持续学习任务提供了更好的归纳偏置。
奇妙智能体竞赛(AAR)推出了一个新的基准测试,包含1,400个有向无环图(DAG)谜题实例,用于评估LLM智能体在分叉-合并工具链和维基百科导航中的表现。评估结果显示,智能体在工具使用方面表现出色(错误率<17%),但在导航方面苦苦挣扎(27-52%的失败率),暴露了现有线性基准测试无法发现的关键差距。
提出 Slipform 训练框架,借助词汇具体性筛选更困难的负样本,并引入基于边界的 Cement 损失,显著提升视觉-语言模型的组合推理能力。