@nomadicai:计算机视觉的未来是智能体。1/ 我们创立 Nomadic,是因为在视频理解中反复看到一个缺口:VLM……
摘要
NomadicAI 正在打造一款智能体计算机视觉产品,解决 VLM 对真实视频内容 grounding 不足的问题。
计算机视觉的未来是智能体。
1/ 我们创立 Nomadic,是因为在视频理解中反复看到一个缺口:VLM 生成的思维链语言流畅、结构常常正确,却与视频中的实际内容 grounding 薄弱。这一限制在以下场景中尤为明显
查看缓存全文
缓存时间: 2026/04/22 06:20
计算机视觉的未来是智能体化的。1/ 我们打造 Nomadic 的出发点,是反复在视频理解中观察到的一个缺口:VLM 生成的思维链语言流畅、结构往往正确,却与视频中真正发生的内容缺乏扎实对应。这一局限在以下场景尤为明显
相似文章
@swyx: 完整文章和链接在此
Latent Space 播客的一集讨论了这样一个论点:视频模型从大语言模型(LLM)中获取智能,下一个前沿是视频智能体。嘉宾 Ethan He(曾在 xAI 构建 Grok Imagine)分享了构建前沿图像和视频系统的见解。
为什么视频代理模型是下一个前沿——Ethan He, xAI Grok Imagine(98分钟阅读)
来自xAI的Ethan He讨论了为什么视频代理模型是下一个前沿,他认为视频模型从LLM中获取智能,并且视频生成的演变将模仿AI编程,从一次性输出转向多轮规划与执行。
原生主动感知作为全模态理解的推理方式
介绍OmniAgent,一个全模态代理,使用迭代的观察-思考-行动循环与主动感知,实现卓越的长视频理解,在基准测试上优于更大的模型如Qwen2.5-VL-72B。
Visual-Seeker: 通过主动视觉推理实现视觉原生多模态代理搜索
Visual-Seeker 提出了一种视觉原生多模态深度搜索代理,它主动推理细粒度视觉细节并综合多模态证据,在五个具有挑战性的多模态搜索基准上实现了最先进的性能。
@AlexiGlad: 人工智能的进步源于采用更弱假设的方法,这使其能够更好地扩展。但表示…
引入了视觉时域差分(TDV),这是一种全新的表示学习范式,仅依赖于因果关系,无需数据增强、掩码或裁剪,并在密集空间任务上达到了与DINO和iBOT等最先进方法相当的性能。