@nomadicai：计算机视觉的未来是智能体。1/ 我们创立 Nomadic，是因为在视频理解中反复看到一个缺口：VLM……

X AI KOLs Following 2026/04/21 17:02 产品

computer-vision video-understanding vlm agentic-ai

摘要

NomadicAI 正在打造一款智能体计算机视觉产品，解决 VLM 对真实视频内容 grounding 不足的问题。

计算机视觉的未来是智能体。 1/ 我们创立 Nomadic，是因为在视频理解中反复看到一个缺口：VLM 生成的思维链语言流畅、结构常常正确，却与视频中的实际内容 grounding 薄弱。这一限制在以下场景中尤为明显

查看原文

查看缓存全文

缓存时间: 2026/04/22 06:20

计算机视觉的未来是智能体化的。1/ 我们打造 Nomadic 的出发点，是反复在视频理解中观察到的一个缺口：VLM 生成的思维链语言流畅、结构往往正确，却与视频中真正发生的内容缺乏扎实对应。这一局限在以下场景尤为明显

相似文章

@swyx: 完整文章和链接在此

X AI KOLs Timeline

Latent Space 播客的一集讨论了这样一个论点：视频模型从大语言模型（LLM）中获取智能，下一个前沿是视频智能体。嘉宾 Ethan He（曾在 xAI 构建 Grok Imagine）分享了构建前沿图像和视频系统的见解。

为什么视频代理模型是下一个前沿——Ethan He, xAI Grok Imagine（98分钟阅读）

TLDR AI

来自xAI的Ethan He讨论了为什么视频代理模型是下一个前沿，他认为视频模型从LLM中获取智能，并且视频生成的演变将模仿AI编程，从一次性输出转向多轮规划与执行。

原生主动感知作为全模态理解的推理方式

Hugging Face Daily Papers

介绍OmniAgent，一个全模态代理，使用迭代的观察-思考-行动循环与主动感知，实现卓越的长视频理解，在基准测试上优于更大的模型如Qwen2.5-VL-72B。

Visual-Seeker: 通过主动视觉推理实现视觉原生多模态代理搜索

arXiv cs.AI

Visual-Seeker 提出了一种视觉原生多模态深度搜索代理，它主动推理细粒度视觉细节并综合多模态证据，在五个具有挑战性的多模态搜索基准上实现了最先进的性能。

@AlexiGlad: 人工智能的进步源于采用更弱假设的方法，这使其能够更好地扩展。但表示…

X AI KOLs Following

引入了视觉时域差分（TDV），这是一种全新的表示学习范式，仅依赖于因果关系，无需数据增强、掩码或裁剪，并在密集空间任务上达到了与DINO和iBOT等最先进方法相当的性能。

提交意见反馈