标签
Reka AI Labs 发布了 CS2-10k 大型数据集,包含超过 60 万个第一人称游戏视频,总计超过 1 万小时,每帧都配有键盘、鼠标和 3D 位置数据。该数据集已在 Hugging Face 上开放,可用于世界模型、基于动作的视频生成以及第一人称导航研究。
本文发现,经过过滤和标注流水线处理的自我中心人类视频,在预训练具身基础模型时可以超越遥操作真实机器人数据,在真实机器人任务上实现了更低的验证损失和更高的成功率。
ACE-EGO-0是一个统一的视觉-语言-动作预训练框架,利用第一人称人类视频和机器人轨迹,通过可靠性感知训练目标,在具身AI基准上达到了最先进水平。
EgoPhys 提出一个框架,利用通用先验和紧凑码本从第一人称 RGB 视频构建可变形物理数字孪生,无需针对每个弹簧进行优化即可实现对新物体的零样本泛化。该系统在真实机器人上进行了演示,表明第一人称人类玩耍视频可以作为可变形物体规划的内部世界表征。
本文介绍了V-RAGBench,一个用于评估长自我中心视频中检索增强生成的基准,以及CARVE,一种自适应地为每个片段选择检索配置以提升VideoRAG性能的方法。
一种无需训练的空间推理框架,它利用由预测3D几何生成的合成新视角视频,实现对自我中心视频中结论的重新审视。
ActiveMimic 是一个预训练框架,它从自我中心人体视频中恢复相机和手腕轨迹,将主动感知建模为视角动作,从而使机器人预训练能够达到与直接在机器人数据上训练的模型相当的性能。
SuperMemory-VQA 是一个新的自我中心VQA基准,包含52.9小时AI眼镜录像和4,853个问答对,旨在评估AI助手在长期记忆任务上的表现,涵盖物体回忆、意图、时间线和对话。基准测试显示,现有的智能体框架和大型语言模型在这些真实世界的记忆挑战上仍远未达到可靠水平。
硅谷初创公司Human Archive已融资820万美元,用于从印度零工工人处收集第一人称视频数据,以训练机器人完成体力任务。尽管遭到主要家庭服务平台拒绝,该公司仍与该领域的其他公司合作。
本文研究了在仿真过程中使用视觉语言模型从第一视角视频评估护理能力,发现识别准确率与能力水平呈负相关,表明这一信号具有教学意义。
Ego2World将第一人称烹饪视频(HD-EPIC)转换为具有图转换规则的可执行符号世界,从而能够在部分观察下评估信念状态规划。实验表明,信念记忆提高了任务完成率,表明它应该成为具身智能体评估的首要目标。
PhysBrain 1.0 是一份技术报告,提出了一种利用人类自我中心视频为视觉-语言-动作模型生成物理常识监督的方法,在ERQA、PhysBench、SimplerEnv-WidowX、LIBERO和RoboCasa等具身控制基准上取得了最先进的结果。