@nomadicai:计算机视觉的未来是智能体。1/ 我们创立 Nomadic,是因为在视频理解中反复看到一个缺口:VLM……

X AI KOLs Following 产品

摘要

NomadicAI 正在打造一款智能体计算机视觉产品,解决 VLM 对真实视频内容 grounding 不足的问题。

计算机视觉的未来是智能体。 1/ 我们创立 Nomadic,是因为在视频理解中反复看到一个缺口:VLM 生成的思维链语言流畅、结构常常正确,却与视频中的实际内容 grounding 薄弱。这一限制在以下场景中尤为明显
查看原文
查看缓存全文

缓存时间: 2026/04/22 06:20

计算机视觉的未来是智能体化的。1/ 我们打造 Nomadic 的出发点,是反复在视频理解中观察到的一个缺口:VLM 生成的思维链语言流畅、结构往往正确,却与视频中真正发生的内容缺乏扎实对应。这一局限在以下场景尤为明显

相似文章

@swyx: 完整文章和链接在此

X AI KOLs Timeline

Latent Space 播客的一集讨论了这样一个论点:视频模型从大语言模型(LLM)中获取智能,下一个前沿是视频智能体。嘉宾 Ethan He(曾在 xAI 构建 Grok Imagine)分享了构建前沿图像和视频系统的见解。

原生主动感知作为全模态理解的推理方式

Hugging Face Daily Papers

介绍OmniAgent,一个全模态代理,使用迭代的观察-思考-行动循环与主动感知,实现卓越的长视频理解,在基准测试上优于更大的模型如Qwen2.5-VL-72B。