标签
本文提出了RECENT框架,该框架通过重构基于代码的技能而非从头生成,利用小语言模型在具身智能体中实现高效的技能落地,其性能可与基于大语言模型的方法媲美。
Cosmos 3是NVIDIA推出的一系列全模态世界模型,采用统一的混合Transformer架构联合处理语言、图像、视频、音频和动作序列,在物理AI的理解和生成任务上达到了最先进水平。
本文提出Polar,一种多模态记忆增强框架,用于在长期用户交互中个性化具身MLLM智能体,利用知识图谱和情景记忆从累积上下文中定位用户意图的实例。
DexHoldem是一个真实世界基准,用于评估具身智能体在灵巧操作任务中的表现,通过使用ShadowHand玩德州扑克来测试在闭环环境中的基元执行、感知和决策能力。
Ego2World将第一人称烹饪视频(HD-EPIC)转换为具有图转换规则的可执行符号世界,从而能够在部分观察下评估信念状态规划。实验表明,信念记忆提高了任务完成率,表明它应该成为具身智能体评估的首要目标。
提出VeGAS框架,一种针对基于MLLM的具身智能体的测试时框架,该框架采样多个候选动作,并利用生成式验证器选择最可靠的动作,在挑战性任务上相比CoT基线实现了高达36%的相对性能提升。
本文介绍了“持续增强框架”(Continual Harness),该框架使具身人工智能智能体能够在无需重置环境的情况下实现在线自我改进。研究展示了在《宝可梦》游戏中的显著进展,通过自动化提示词和技能优化,智能体达到了人类水平的表现。