egocentric-video

#egocentric-video

@RekaAILabs: CS2-10k 现已在 @huggingface 上发布。60万+ 第一人称游戏视频。1万+ 小时。每帧都配有相应的键盘、鼠标和3D位置数据。

X AI KOLs Following ↗ · 昨天缓存

Reka AI Labs 发布了 CS2-10k 大型数据集，包含超过 60 万个第一人称游戏视频，总计超过 1 万小时，每帧都配有键盘、鼠标和 3D 位置数据。该数据集已在 Hugging Face 上开放，可用于世界模型、基于动作的视频生成以及第一人称导航研究。

0 人收藏 0 人点赞

#egocentric-video

HumanScale: 自我中心人类视频在具身预训练中可超越真实机器人数据

Hugging Face Daily Papers ↗ · 2026-06-18 缓存

本文发现，经过过滤和标注流水线处理的自我中心人类视频，在预训练具身基础模型时可以超越遥操作真实机器人数据，在真实机器人任务上实现了更低的验证损失和更高的成功率。

0 人收藏 0 人点赞

#egocentric-video

ACE-Ego-0: 统一第一人称人类与机器人数据用于VLA预训练

Hugging Face Daily Papers ↗ · 2026-06-15 缓存

ACE-EGO-0是一个统一的视觉-语言-动作预训练框架，利用第一人称人类视频和机器人轨迹，通过可靠性感知训练目标，在具身AI基准上达到了最先进水平。

0 人收藏 0 人点赞

#egocentric-video

EgoPhys：从第一人称视频学习可变形物体的通用物理模型

Hugging Face Daily Papers ↗ · 2026-06-15 缓存

EgoPhys 提出一个框架，利用通用先验和紧凑码本从第一人称 RGB 视频构建可变形物理数字孪生，无需针对每个弹簧进行优化即可实现对新物体的零样本泛化。该系统在真实机器人上进行了演示，表明第一人称人类玩耍视频可以作为可变形物体规划的内部世界表征。

0 人收藏 0 人点赞

#egocentric-video

重新思考长视频中的RAG：检索什么以及如何使用？

arXiv cs.AI ↗ · 2026-06-12 缓存

本文介绍了V-RAGBench，一个用于评估长自我中心视频中检索增强生成的基准，以及CARVE，一种自适应地为每个片段选择检索配置以提升VideoRAG性能的方法。

0 人收藏 0 人点赞

#egocentric-video

推理，然后重新推理：跨视角回顾提升空间推理

Hugging Face Daily Papers ↗ · 2026-06-10 缓存

一种无需训练的空间推理框架，它利用由预测3D几何生成的合成新视角视频，实现对自我中心视频中结论的重新审视。

0 人收藏 0 人点赞

#egocentric-video

ActiveMimic: 基于主动感知的自我中心视频预训练

Hugging Face Daily Papers ↗ · 2026-06-04 缓存

ActiveMimic 是一个预训练框架，它从自我中心人体视频中恢复相机和手腕轨迹，将主动感知建模为视角动作，从而使机器人预训练能够达到与直接在机器人数据上训练的模型相当的性能。

0 人收藏 0 人点赞

#egocentric-video

SuperMemory-VQA: 一个面向长期记忆的自我中心视觉问答基准

Hugging Face Daily Papers ↗ · 2026-05-30

SuperMemory-VQA 是一个新的自我中心VQA基准，包含52.9小时AI眼镜录像和4,853个问答对，旨在评估AI助手在长期记忆任务上的表现，涵盖物体回忆、意图、时间线和对话。基准测试显示，现有的智能体框架和大型语言模型在这些真实世界的记忆挑战上仍远未达到可靠水平。

0 人收藏 0 人点赞

#egocentric-video

这家初创公司押注印度零工经济可以训练全球机器人

TechCrunch AI ↗ · 2026-05-26 缓存

硅谷初创公司Human Archive已融资820万美元，用于从印度零工工人处收集第一人称视频数据，以训练机器人完成体力任务。尽管遭到主要家庭服务平台拒绝，该公司仍与该领域的其他公司合作。

0 人收藏 0 人点赞

#egocentric-video

基于仿真护理教育的自我视角视频的AI辅助能力评估

arXiv cs.AI ↗ · 2026-05-22 缓存

本文研究了在仿真过程中使用视觉语言模型从第一视角视频评估护理能力，发现识别准确率与能力水平呈负相关，表明这一信号具有教学意义。

0 人收藏 0 人点赞

#egocentric-video

Ego2World：将第一人称烹饪视频编译为可执行世界以进行信念状态规划

arXiv cs.AI ↗ · 2026-05-14 缓存

Ego2World将第一人称烹饪视频（HD-EPIC）转换为具有图转换规则的可执行符号世界，从而能够在部分观察下评估信念状态规划。实验表明，信念记忆提高了任务完成率，表明它应该成为具身智能体评估的首要目标。

0 人收藏 0 人点赞

#egocentric-video

PhysBrain 1.0 技术报告

Hugging Face Daily Papers ↗ · 2026-05-14 缓存

PhysBrain 1.0 是一份技术报告，提出了一种利用人类自我中心视频为视觉-语言-动作模型生成物理常识监督的方法，在ERQA、PhysBench、SimplerEnv-WidowX、LIBERO和RoboCasa等具身控制基准上取得了最先进的结果。

0 人收藏 0 人点赞

egocentric-video

提交意见反馈