abstract-reasoning

#abstract-reasoning

世界模型与语言模型相遇：论具体推理与抽象推理的互补性

Hugging Face Daily Papers ↗ · 昨天缓存

本文提出特权未来在策略自蒸馏（PF-OPSD）方法，用于受控具体推理，结合世界模型的视觉模拟与语言模型的抽象推理，在两个新基准上提升预测准确性和鲁棒性。

0 人收藏 0 人点赞

#abstract-reasoning

arXiv cs.AI ↗ · 3天前缓存

GraphARC是一个针对图结构数据抽象推理的新基准，将ARC范式扩展到图领域。对最新语言模型的评估揭示了理解与执行之间的差距，且在大规模实例上性能下降，凸显了扩展挑战。

0 人收藏 0 人点赞

#abstract-reasoning

Hugging Face Daily Papers ↗ · 2026-05-17 缓存

本文介绍了A2RBench，一个用于为LLM生成可形式化验证的抽象推理基准的自动化流水线，它利用循环一致性来确保唯一解，并揭示当前LLM在3D推理任务上显著落后于人类。

0 人收藏 0 人点赞