基于摄像头所见采取行动的智能体:空间输出是薄弱环节

Reddit r/AI_Agents 工具

摘要

VideoDB 的一位开发者强调了智能体使用视觉模型时精确空间输出的问题,指出微小的定位错误可能导致错误动作,并宣布开源了一个评估工具,用于在自定义视频上检查空间准确性。

我在 VideoDB 负责视频方面的工作,一直困扰我们的是视觉模型的精确空间输出问题。如果智能体需要根据精确位置采取行动,微小的定位错误就会导致错误动作。我发现最简单的验证方法是:给一个 VLM 展示棋局并让它输出 FEN。它通常能识别棋子,但会把棋子放在错误的格子上。在演示中这无伤大雅,但当智能体据此触发行动时就不那么无害了。我们将其纳入了更广泛的 VLM 评估研究中,并开源了评估工具,以便你可以在自己的视频或图像数据上进行检查。对于正在基于视频或图像构建智能体的开发者,你们是如何处理模型虽然自信但有些许错误的情况的?
查看原文

相似文章

SpatialAct: 探索VLM智能体在3D场景中的空间推理到行动的能力

Hugging Face Daily Papers

SpatialAct是一个新的基于模拟器的基准,用于探索VLM智能体是否能在多轮反馈设置下进行连贯的空间推理并将其转化为3D环境中的行动。实验揭示了一个显著的推理到行动差距:当前的VLM尽管在孤立推理任务上表现良好,但难以维持空间信念并产生可靠的行为。

@swyx: 完整文章和链接在此

X AI KOLs Timeline

Latent Space 播客的一集讨论了这样一个论点:视频模型从大语言模型(LLM)中获取智能,下一个前沿是视频智能体。嘉宾 Ethan He(曾在 xAI 构建 Grok Imagine)分享了构建前沿图像和视频系统的见解。