基于摄像头所见采取行动的智能体:空间输出是薄弱环节
摘要
VideoDB 的一位开发者强调了智能体使用视觉模型时精确空间输出的问题,指出微小的定位错误可能导致错误动作,并宣布开源了一个评估工具,用于在自定义视频上检查空间准确性。
我在 VideoDB 负责视频方面的工作,一直困扰我们的是视觉模型的精确空间输出问题。如果智能体需要根据精确位置采取行动,微小的定位错误就会导致错误动作。我发现最简单的验证方法是:给一个 VLM 展示棋局并让它输出 FEN。它通常能识别棋子,但会把棋子放在错误的格子上。在演示中这无伤大雅,但当智能体据此触发行动时就不那么无害了。我们将其纳入了更广泛的 VLM 评估研究中,并开源了评估工具,以便你可以在自己的视频或图像数据上进行检查。对于正在基于视频或图像构建智能体的开发者,你们是如何处理模型虽然自信但有些许错误的情况的?
相似文章
SpatialAct: 探索VLM智能体在3D场景中的空间推理到行动的能力
SpatialAct是一个新的基于模拟器的基准,用于探索VLM智能体是否能在多轮反馈设置下进行连贯的空间推理并将其转化为3D环境中的行动。实验揭示了一个显著的推理到行动差距:当前的VLM尽管在孤立推理任务上表现良好,但难以维持空间信念并产生可靠的行为。
@nomadicai:计算机视觉的未来是智能体。1/ 我们创立 Nomadic,是因为在视频理解中反复看到一个缺口:VLM……
NomadicAI 正在打造一款智能体计算机视觉产品,解决 VLM 对真实视频内容 grounding 不足的问题。
哪种预训练范式更能服务于空间智能?视觉语言模型与视频生成模型的实证比较
本文通过系统性的冻结特征探测研究,比较了视觉语言模型(VLMs)和视频生成模型(VGMs)在空间智能任务上的表现。研究发现,VLMs在语义标签和实例分组方面表现优异,而VGMs则提供更好的密集几何和相机运动信号。两种模型的简单融合在所有维度上均展现出强劲性能。
AI代理的失败方式鲜有人论及。以下是我亲眼所见。
文章强调了AI代理工作流程中实际的系统级失败,例如上下文泄漏和幻觉细节,认为这些通常是基础设施问题而非模型缺陷。
@swyx: 完整文章和链接在此
Latent Space 播客的一集讨论了这样一个论点:视频模型从大语言模型(LLM)中获取智能,下一个前沿是视频智能体。嘉宾 Ethan He(曾在 xAI 构建 Grok Imagine)分享了构建前沿图像和视频系统的见解。