标签
本文提出了COMPASS,首个能够同时锚定组合意图控制,以进行组合感知和组合引导生成的统一多模态框架,并引入了共享专家令牌和Comp-11数据集。
本综述论文系统回顾了多模态大语言模型(MLLMs)中统一视觉-语言感知的范式演进,提出了五阶段分类法,并指出了通向通用多模态智能的开放挑战。
对自主机器人背后软件栈的分析,拆解了从感知到云支持的各个组件,并指出大多数工具都是开源的。
本文介绍了ViGOS,一种多模态在策略自蒸馏方法,通过让学生模型先产生视觉描述再进行推理来解耦感知与推理,减少对捷径的依赖并改善图像接地行为。
本文系统地综述了医学具身AI的核心组成部分,强调了在临床环境中感知、决策与行动的协同整合,并回顾了代表性应用、数据集及未来研究方向。
本文介绍了PhysTool-Bench,一个用于评估多模态大语言模型在真实世界场景中识别和规划物理工具使用能力的基准。作者发现,即使是最佳模型也只能识别58.7%的工具,并仅完成21.0%的端到端查询,揭示了感知和功能常识两个层面的缺陷。
本文探讨了人们将任何明显经过修改的图像或视频标记为“AI生成”的趋势,并质疑这个术语是否正在成为早于AI的数字处理的通用标签。
MemDreamer 通过分层图记忆和代理检索解耦长视频理解中的感知与推理,在降低计算开销的同时实现了最先进的性能。
一篇综述,以人类视角呈现对多模态大语言模型(MLLMs)进行视频理解的研究,围绕观看、记忆和推理能力组织,涵盖挑战、方法和应用。
一条推文讨论了OpenAI的发布已不再被视为创业公司的终结者,并提到了一个使用Cloudflare的Sites、D1和R2部署网站的新Codex功能。
介绍了 Representation Forcing(RF),一种技术,使得统一多模态模型能够在没有外部VAE潜在空间的情况下端到端地执行感知和生成,在图像生成方面达到最先进的基于VAE的模型水平,同时提升理解能力。
DynaFLIP 是一个动力学感知的多模态预训练框架,将运动理解整合到机器人操作的视觉感知中。它使用图像-语言-3D流三元组和几何正则化来改进表征学习,在分布外场景中取得了显著提升。
本文倡导将能动方法融入人工智能的感知与认知领域,重点阐述了四个关键概念:经验、行动与感知的不可分割性、自主性和具身性。研究发现与强化学习存在共鸣,但建议更广泛地整合能动思想。
DexHoldem是一个真实世界基准,用于评估具身智能体在灵巧操作任务中的表现,通过使用ShadowHand玩德州扑克来测试在闭环环境中的基元执行、感知和决策能力。
本文提出一种强化学习框架,通过显式奖励感知保真度来改善视觉语言模型中的感知-推理协同,利用“蒙眼推理”代理和结构化言语验证来解决模态信用分配中的模糊性。
本文提出嵌入时序逻辑(ETL),一种直接在学习的嵌入空间中监控感知自主系统的时序逻辑,能够指定高级感知概念,并与真实语义具有强经验一致性。