causal-reasoning

标签

#causal-reasoning

Trivium：将时间遗憾作为因果记忆控制器的一等目标

arXiv cs.AI ↗ · 5天前缓存

本文提出了“Trivium”框架，该框架将长时域时间遗憾和认知遗憾作为一等目标，与结果遗憾一同用于智能体LLM系统中的因果记忆控制器。作者证明，在没有干预通道的情况下，仅基于结果的学习无法区分因果结构与虚假结构，而他们的方法在CausalBench-Seq实验中实现了O(log E)的时间遗憾，而基线方法则为线性增长。

0 人收藏 0 人点赞

#causal-reasoning

Discrete-WAM：面向世界-策略学习的统一离散视觉-动作令牌编辑

Hugging Face Daily Papers ↗ · 5天前缓存

介绍了Discrete-WAM，一种统一的离散潜在视觉-动作世界策略，通过对齐的离散令牌和共享的离散扩散框架，在自动驾驶中实现组合因果推理和反事实推理。

0 人收藏 0 人点赞

#causal-reasoning

PropLLM：面向网络故障诊断的传播感知场景重建

arXiv cs.AI ↗ · 2026-06-02 缓存

PropLLM将逐跳场景重建与LLM相结合，用于网络故障诊断。它利用双层知识图谱和时间因果传播注意力机制，沿着传播路径进行回溯，从而提高准确性并减少幻觉。

0 人收藏 0 人点赞

#causal-reasoning

基于互兼容性的双变量因果陈述评估

arXiv cs.AI ↗ · 2026-06-02 缓存

本文提出了兼容性和不兼容性分数，用于评估双变量因果陈述集合，无需依赖忠实性假设，并通过分析大型语言模型的因果主张展示了其实用性。

0 人收藏 0 人点赞

#causal-reasoning

BEAMS: AI在建模与仿真中的基准测试与评估

arXiv cs.AI ↗ · 2026-05-29 缓存

BEAMS倡议提出了一套基准测试集，用于评估建模与仿真中的AI工具，重点关注以人为本和负责任的AI实践。测试显示，基于LLM的引擎存在差异，在定性任务上的表现优于因果推理。

0 人收藏 0 人点赞

#causal-reasoning

SVI-Bench：战略视频智能的动态微世界

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

介绍了SVI-Bench，这是一个利用团队运动进行战略视频智能的大规模基准，旨在评估模型在动态场景理解、因果推理、战略模拟和代理综合方面的能力。该基准揭示了一个能力断崖：模型在感知任务上表现良好，但在更高层次的战略推理上急剧下降。

0 人收藏 0 人点赞

#causal-reasoning

为何通用人工智能需要世界模型：大型语言模型的不足与世界模型的潜在优势

arXiv cs.AI ↗ · 2026-05-26 缓存

本文认为，大型语言模型在因果推理和长时域规划方面存在困难，其原因在于序列预测与对潜在环境动态的推理之间存在目标层面的不匹配，并引入了潜在动态推断视角以及Flux环境来研究这些局限性。

0 人收藏 0 人点赞

#causal-reasoning

仅靠规模扩展无法实现理性人工智能

Reddit r/ArtificialInteligence ↗ · 2026-05-18

本文认为，当前大型语言模型无法实现真正的理性（即识别和切换框架的能力），其根本原因在于架构限制而非规模不足。文中引用反转诅咒、框架转移问题等实证失败案例，并指出仅靠规模扩展可能无法弥合这一差距。

0 人收藏 0 人点赞

#causal-reasoning

确定性事件图基质作为反事实推理的世界模型

arXiv cs.AI ↗ · 2026-05-18 缓存

该论文提出并评估了一类称为事件图基质的因果推理世界模型，通过确定性重放在类型化RDF事件日志上进行反事实查询，在多个基准上优于基线模型，同时保证了可检查性和可重放一致性。

0 人收藏 0 人点赞

#causal-reasoning

@berryxia: 兄弟们，Google最新论文直接把时间序列预测的底层逻辑翻了个个儿。过去所有模型都在死磕历史数据：曲线怎么走，就怎么预测。 Nexus却说：预测需要的不只是历史，而是“事件上下文”。数字背后的真正原因——政策、突发事件、宏观趋势、局部…

X AI KOLs Timeline ↗ · 2026-05-18 缓存

Google新论文Nexus提出将时间序列预测从统计外推转化为多agent推理，通过事件上下文提升预测准确性，在Zillow数据集上MAPE降低86.6%。

0 人收藏 0 人点赞

#causal-reasoning

ReplaySCM：基于干预数据执行因果机制归纳的基准测试

arXiv cs.LG ↗ · 2026-05-12 缓存

本文介绍了 ReplaySCM，这是一个旨在评估语言模型从干预证据中归纳可执行因果机制能力的基准测试，重点关注语义重放行为而非语法匹配。

0 人收藏 0 人点赞

#causal-reasoning

基于语义损失的微调方法以防止因果推理中的模型崩溃

arXiv cs.LG ↗ · 2026-05-08 缓存

本文指出了标准微调在因果推理任务中存在的“模型崩溃”问题，并提出了一种结合基于图的逻辑约束的语义损失函数来防止该现象。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈