active-exploration

#active-exploration

人类成年人与大语言模型作为科学家：谁从主动探索中受益？

arXiv cs.AI ↗ · 2026-06-08 缓存

本研究探讨了主动探索是否能帮助成年人克服因果推理中的“合取性缺陷”，并在blicket探测器任务中将人类表现与大语言模型进行比较。结果表明，主动探索改善了成年人的合取推理能力，尽管仍存在一些差距，而大语言模型接近人类的准确性，但探索效率较低。

0 人收藏 0 人点赞

#active-exploration

Hugging Face Daily Papers ↗ · 2026-06-08 缓存

SpatialWorld是一个统一的基准测试，用于评估多模态智能体在各种真实世界任务中的交互式空间推理能力。结果表明，即使是最强大的模型，其任务成功率也很低。

0 人收藏 0 人点赞

#active-exploration

Hugging Face Daily Papers ↗ · 2026-05-31 缓存

介绍了 Target Viewpoint Reproduction (TVR) 任务和 TVRBench 基准，用于评估基础模型主动调整 3D 视角以匹配目标图像的能力。实验揭示了当前开源和闭源模型的显著局限性，统一的后训练框架将成功率从约12%提升至约51%。

0 人收藏 0 人点赞

#active-exploration

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

介绍了 ESI-BENCH，这是一个基于 OmniGibson 构建的全面具身空间智能基准，涵盖 10 个任务类别和 29 个子类别。实验表明，主动探索显著优于被动方法，失败主要源于行动盲视而非感知，揭示了模型与人类相比的元认知差距。

0 人收藏 0 人点赞