标签
本文盘点了具身智能领域的最新世界模型算法,包括Fast-WAM及其低延迟解耦机制,并介绍了多个开源项目如GeoSem-WAM、CLAW、WALL-X等,提供了技术特点和代码链接。
本文介绍了奖励作为智能体(Reward as an Agent)和DynDiff-GRPO,以解决具身世界模型中强化学习的奖励黑客攻击和有限探索问题,实现了显著的准确率提升。
本文提出了一种自动生成流水线,为DialNav创建大规模训练数据集(RAINbow)。DialNav是一种基于对话的视觉与语言导航任务。结合双策略训练和定位模型,该方法在基线上取得了显著提升。
本综述全面概述了世界行动模型(WAMs)——即生成未来状态以辅助决策的预测行动系统——并根据所需输出和设计选择对现有工作进行分类。
本文发现,经过过滤和标注流水线处理的自我中心人类视频,在预训练具身基础模型时可以超越遥操作真实机器人数据,在真实机器人任务上实现了更低的验证损失和更高的成功率。
使用开源ENPIRE框架的AI编码代理能够自主训练机器人执行如安装GPU和切割扎带等任务,系统可在一夜之间自我改进。
本文介绍了DeepInsight,一个面向物理AI栈的统一评估基础设施,涵盖从基础模型解码到全身控制,通过三种窄抽象保留异构性,从而实现跨层诊断。
Qwen-RobotWorld技术报告提出了一种统一的、语言条件化的视频世界模型,用于具身智能,能够从当前观测中预测未来视频,涵盖机器人、自动驾驶、导航等多个领域,并应用于合成数据生成、策略评估和规划。
讨论了具身AI和机器人技术面临的挑战,包括10万年的数据差距以及缺乏共享基准,并强调了数据循环、评估系统和部署方面的创业机会。
本文系统地综述了医学具身AI的核心组成部分,强调了在临床环境中感知、决策与行动的协同整合,并回顾了代表性应用、数据集及未来研究方向。
本文调研了世界模型的评估方法,主张采用以决策为中心的框架,优先考虑反事实推理、规划与策略优化,而非视觉质量。文中引入了L0–L7评估阶梯及基准协议,使评估与声称的效用一致。
据报道,BYD正在秘密开发一款代号为'Yao-Shun-Yu'的人形机器人,加入汽车巨头间的具身智能竞赛。
Qwen-RobotWorld是一个语言条件视频世界模型,利用双流扩散变换器和860万视频-文本语料库,预测多个机器人领域的未来视觉轨迹。它统一了机器人操作、自动驾驶、室内导航和人机迁移的具身世界建模,在EWMBench和DreamGen Bench上取得了顶尖基准成绩。
TouchThinker 引入了百万量级的触觉推理数据集和基准,利用动作感知表示实现高效推理,将触觉常识推理扩展到开放世界场景。
WEAVER是一种用于机器人操作的多视角世界模型,通过流匹配损失实现了高保真度、一致性和效率,在策略评估、策略改进和测试时规划中表现出色,并在真实世界中取得了显著改进。
Qualia 入选 Google DeepMind 机器人项目,旨在训练具身模型以完成真实世界的体力任务,推动机器人领域的基础模型与推理发展。
本文介绍了PhysTool-Bench,一个用于评估多模态大语言模型在真实世界场景中识别和规划物理工具使用能力的基准。作者发现,即使是最佳模型也只能识别58.7%的工具,并仅完成21.0%的端到端查询,揭示了感知和功能常识两个层面的缺陷。
iMaC提出了一种统一控制范式,将原始视觉图像作为具身世界模型的原生动作表示,通过基于图像的动作令牌实现更具表现力和泛化能力的机器人控制。
ABot-Earth 0.5 是一个生成式3D框架,它利用3D高斯泼溅(3D Gaussian Splatting)从卫星图像合成逼真的3D城市环境,实现实时可视化和低成本的闭环无人机导航。
AnchorWorld是一个用于自我中心世界模拟的框架,通过3D人体运动和锚点视角定义增强了交互完整性并实现了灵活的世界定制,性能优于最先进的基线。