compositional-reasoning

标签

Cards List
#compositional-reasoning

R-APS:通过反思性对抗帕累托搜索实现约束设计的组合推理与上下文元学习

arXiv cs.AI · 3天前 缓存

R-APS(反思性对抗帕累托搜索)是一种面向约束设计任务的新方法,通过跨三个时间尺度的推理模式分解,解决了基于LLM的智能体系统中的三类结构性缺陷——错误传播、鲁棒性评估与知识失效,且无需微调。在平面机构综合任务上的评估结果表明,与基线方法相比,R-APS实现了3.5倍更紧的鲁棒性证书、46%更快的首次准入迭代速度,以及2.1倍的Chamfer距离缩减。

0 人收藏 0 人点赞
#compositional-reasoning

MAVEN:提升智能体工具调用的泛化能力

arXiv cs.AI · 6天前 缓存

MAVEN 是一种轻量级符号推理框架,通过模块化验证和自适应工具编排,提升了智能体工具调用的泛化能力。它在新的压力测试基准 MAVEN-Bench 上取得了显著的准确率提升,并且以极低的成本与专有模型保持竞争力。

0 人收藏 0 人点赞
#compositional-reasoning

组合坍缩:稳定的事实知识并不蕴含组合推理

arXiv cs.AI · 2026-05-27 缓存

本文介绍了'组合坍缩'这一现象,即语言模型虽然拥有稳定的事实知识,但仍无法将这些知识组合成正确的多跳推理,并提出了一个双门协议,以将组合失败与原子知识不稳定性分离开来。

0 人收藏 0 人点赞
#compositional-reasoning

Transformer模型学习中产生的捷径策略损害其持续组合推理能力

arXiv cs.LG · 2026-05-08 缓存

本研究论文探讨了Transformer模型(特别是BERT)在学习过程中产生的捷径策略如何削弱其持续组合推理能力。研究将BERT与ALBERT进行对比,发现ALBERT的循环特性为持续学习任务提供了更好的归纳偏置。

0 人收藏 0 人点赞
#compositional-reasoning

奇妙智能体竞赛:强大的工具使用者,薄弱的导航者

arXiv cs.CL · 2026-04-20 缓存

奇妙智能体竞赛(AAR)推出了一个新的基准测试,包含1,400个有向无环图(DAG)谜题实例,用于评估LLM智能体在分叉-合并工具链和维基百科导航中的表现。评估结果显示,智能体在工具使用方面表现出色(错误率<17%),但在导航方面苦苦挣扎(27-52%的失败率),暴露了现有线性基准测试无法发现的关键差距。

0 人收藏 0 人点赞
#compositional-reasoning

Concrete Jungle:利用词汇具体性铺路,革新对比负样本挖掘以提升组合理解

Hugging Face Daily Papers · 2026-04-14 缓存

提出 Slipform 训练框架,借助词汇具体性筛选更困难的负样本,并引入基于边界的 Cement 损失,显著提升视觉-语言模型的组合推理能力。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈