收集机器人训练数据是又脏又累的活。一些AI实验室已开始付费让XDOF来做。

TechCrunch AI 产品

摘要

XDOF,一家刚结束隐身模式的初创公司,已筹集7000万美元,用于构建机器人训练的数据管道和工具,以解决物理交互数据的瓶颈问题。该公司发布了一个大型机器人操作轨迹数据集ABC,以加速机器人AI的发展。

如果物理AI想要达到LLMs的成就,就需要解决一个数据问题。
查看原文
查看缓存全文

缓存时间: 2026/06/17 17:42

# 收集机器人训练数据是又脏又累的活儿。一些AI实验室已经在付费请XDOF来做了。| TechCrunch 来源:https://techcrunch.com/2026/06/17/collecting-robot-training-data-is-dirty-unglamorous-work-some-ai-labs-are-already-paying-xdof-to-do-it/ 两周前,OpenAI表示(https://x.com/sama/status/2061117302528188712)将重启其在2021年关闭的机器人项目——这是最新的信号,表明最大的AI实验室正在竞相教会机器在物理世界中运作。但构建有能力的机器人需要AI行业尚未拥有的东西,那就是与语言模型匹配的训练数据。 这一差距正在催生一种新型的基础设施业务。与基于海量公开文本训练的LLM不同,机器人的数据需要捕捉物理交互,而这种数据几乎不存在。YouTube视频和零工工人拍摄的素材保真度低,且难以与物理世界对齐。 XDOF(https://www.xdof.ai/)(发音为“ecks-doff”),今天从隐身模式中浮现,押注AI的下一个主要瓶颈不是模型或芯片,而是教会机器人如何与物理世界交互所需的数据反馈循环。 这家初创公司旨在构建数据管道、收集工具和标注系统——这些是前沿实验室和机器人公司自身难以轻松建立的——并为此从Thrive Capital、Spark Capital、a16z、Lux和WndrCo筹集了7000万美元。联合创始人兼CEO Philipp Wu表示,XDOF拥有约60名员工,目前已与20家客户合作,其中包括几家前沿AI实验室,但无法透露其名称。 “所有顶级实验室都在尝试进军机器人领域,”Wu说。“我们已经在语言模型竞赛中看到了一些落后带来的教训……没有人想陷入这种局面,即太晚追求这项技术,而每个人都知道物理AI是下一个前沿阵地。” Wu本人在加州大学伯克利分校攻读博士时,就亲身遇到了这个问题。他的研究方向是让机器人能够从大规模数据集中学习技能。但有一个问题。 “我们没有大规模数据可用,”他告诉TechCrunch。“这是一个先有鸡还是先有蛋的问题——我们首先需要实际收集数据,然后才能问如何为机器人训练基础模型。” Wu和他未来的XDOF联合创始人兼CTO Fred Shentu曾参与一个名为GELLO的项目,这是一个低成本远程操作系统,允许人类操作员控制机械臂来生成训练数据。“它最终成为机器人大领域非常有影响力的论文,因为很多人都有类似的需求和瓶颈,许多人开始利用这类设备进行数据收集,”Wu说。 发现机会后,Wu、Shentu和第三位联合创始人兼COO Nemo Jin于2024年10月成立了XDOF,为追求机器人模型的公司提供数据生态系统。公司意识到单纯提供数据可能是一条死胡同,因此也专注于数据清洗、工具和标注——为机器人训练者创建一个自我强化的反馈循环。 作为起点,该公司与加州大学伯克利分校的AI研究实验室合作,发布了他们认为有史以来最大规模的高质量机器人训练数据集,命名为ABC。该数据集包含13万条机器人操作轨迹、300小时模拟数据和100小时评估数据。这种规模的预训练数据此前从未向学术界开放过。 “我们在语言、图像生成和其他领域看到,当模型和数据被发布时,社区会取得你原本意想不到的成果,”参与此次发布的伯克利博士生David McAllister告诉TechCrunch。 团队已经利用该数据训练机器人完成基准任务,如折叠T恤、压平盒子,以及将AirPods装入充电盒。 ## 无限自由度 该公司计划在数据金字塔的三个层级上开展工作。最有价值的层级是使用实际部署的机器人通过远程操作收集的数据;其次是使用远程操作机器人收集更通用的数据(如GELLO);最后是通过人类执行日常任务收集的“自我中心”数据,XDOF计划为此构建自己的可穿戴传感器。 “你的相机选择会影响数据质量——进而影响手部跟踪算法的性能,”Wu说。“如果从一开始不做好硬件设计,收集的数据可能会带有你未预料到的特定问题。” 该公司计划在全球范围内雇佣和培训大批远程操作员和自我中心数据操作员——这种劳动密集型模式引出一个显而易见的问题:为什么主要实验室不自己从事这些数据生产工作? “你需要一个数十万平方英尺的仓库,里面摆放着数百台机器人,”Wu说。“你需要维护这些机器人,校准它们的物理参数,并正确培训操作员。” 这是一个需要专注、资本和运营规模的搭建工作,大多数AI实验室更愿意将其外包——这正是XDOF所押注的市场。 名称XDOF源于机器人术语“自由度”,用于描述机器人可以执行的独立运动数量。你的手臂从肩膀到手腕有七个自由度(https://www.researchgate.net/figure/The-seven-principal-degrees-of-freedom-of-the-human-armadapted-from-4_fig2_329039448)。人形机器人公司Figure AI最新推出的机器人有30个自由度。公司名称中的“X”体现了其雄心:“任意自由度,无限自由度,”Wu说。 *当您通过我们文章中的链接购买商品时,我们可能会获得少量佣金(https://techcrunch.com/techcrunch-affiliate-monetization-standards/)。这不会影响我们的编辑独立性。*

相似文章

Axol

Product Hunt

Axol 是一款旨在自动化物理工作的机器人,为自动化提供强大的解决方案。