在我们花数月处理开源机器人数据集之前,请告诉我们为什么这是个坏主意 [D]

Reddit r/MachineLearning 新闻

摘要

作者是一名机器学习学生,向机器人社区提出关于数据互操作性的问题,并提议进行一项实验,以规范化和丰富公共机器人数据集,以便更好地重用。

附注:不是在推销什么;只是想了解现实与叙述之间的差异。我们是几个机器学习学生,之前主要做机器学习/软件相关工作,但过去几个月我们一直在尝试VLA、机器人数据集,并试图理解这个领域的发展方向。花了数周下载机器人数据集后,我们惊讶于仅仅将数据转换为可用格式就需要付出如此多的努力。也许我们遗漏了什么,但感觉每个数据集都有不同的假设、模式、传感器、坐标框架、元数据标准和工具链。这让我们开始思考:机器人团队实际上如何看待数据共享?人们真的希望获得更多机器人数据,还是行业正朝着“自己收集数据,因为别人的数据无法迁移”的方向发展?我们目前的(可能非常错误)假设是:机器人生态系统不存在数据稀缺问题。它存在的是数据互操作性问题。我们正在考虑进行一个相当大的实验:获取我们能接触到的几乎所有公开的机器人学习数据集,将其标准化为通用模式,用元数据丰富它,并看看其中有多少数据真正可以在不同任务、实体和学习流程中重用。在我们花数月时间做这件事之前,我们很想听听实际从事机器人构建的人的意见。这个假设在哪些方面是错误的?寻找数据实际上不是问题吗?实体不匹配是真正的障碍吗?质量是问题吗?标注是问题吗?大家是否仍然只是自己收集数据?你会使用其他团队收集的机器人数据吗?如果我明天给你一个API,让你访问所有公开机器人数据集,你会实际用它做什么?还是完全忽略它?\------------------------------------------------------------------------------------------------------ 编辑:一点澄清 我们不是在考虑市场、专有格式或封闭平台。我们考虑的实验要简单得多:尽可能多地获取公开机器人数据,标准化,用元数据/质量信号丰富它,使其可搜索,并以开放格式回馈社区。这对实践者来说会有用吗?
查看原文

相似文章