标签
本文提出了“Trivium”框架,该框架将长时域时间遗憾和认知遗憾作为一等目标,与结果遗憾一同用于智能体LLM系统中的因果记忆控制器。作者证明,在没有干预通道的情况下,仅基于结果的学习无法区分因果结构与虚假结构,而他们的方法在CausalBench-Seq实验中实现了O(log E)的时间遗憾,而基线方法则为线性增长。
介绍了Discrete-WAM,一种统一的离散潜在视觉-动作世界策略,通过对齐的离散令牌和共享的离散扩散框架,在自动驾驶中实现组合因果推理和反事实推理。
PropLLM将逐跳场景重建与LLM相结合,用于网络故障诊断。它利用双层知识图谱和时间因果传播注意力机制,沿着传播路径进行回溯,从而提高准确性并减少幻觉。
本文提出了兼容性和不兼容性分数,用于评估双变量因果陈述集合,无需依赖忠实性假设,并通过分析大型语言模型的因果主张展示了其实用性。
BEAMS倡议提出了一套基准测试集,用于评估建模与仿真中的AI工具,重点关注以人为本和负责任的AI实践。测试显示,基于LLM的引擎存在差异,在定性任务上的表现优于因果推理。
介绍了SVI-Bench,这是一个利用团队运动进行战略视频智能的大规模基准,旨在评估模型在动态场景理解、因果推理、战略模拟和代理综合方面的能力。该基准揭示了一个能力断崖:模型在感知任务上表现良好,但在更高层次的战略推理上急剧下降。
本文认为,大型语言模型在因果推理和长时域规划方面存在困难,其原因在于序列预测与对潜在环境动态的推理之间存在目标层面的不匹配,并引入了潜在动态推断视角以及Flux环境来研究这些局限性。
本文认为,当前大型语言模型无法实现真正的理性(即识别和切换框架的能力),其根本原因在于架构限制而非规模不足。文中引用反转诅咒、框架转移问题等实证失败案例,并指出仅靠规模扩展可能无法弥合这一差距。
该论文提出并评估了一类称为事件图基质的因果推理世界模型,通过确定性重放在类型化RDF事件日志上进行反事实查询,在多个基准上优于基线模型,同时保证了可检查性和可重放一致性。
Google新论文Nexus提出将时间序列预测从统计外推转化为多agent推理,通过事件上下文提升预测准确性,在Zillow数据集上MAPE降低86.6%。
本文介绍了 ReplaySCM,这是一个旨在评估语言模型从干预证据中归纳可执行因果机制能力的基准测试,重点关注语义重放行为而非语法匹配。
本文指出了标准微调在因果推理任务中存在的“模型崩溃”问题,并提出了一种结合基于图的逻辑约束的语义损失函数来防止该现象。