在我们花数月处理开源机器人数据集之前,请告诉我们为什么这是个坏主意 [D]
摘要
作者是一名机器学习学生,向机器人社区提出关于数据互操作性的问题,并提议进行一项实验,以规范化和丰富公共机器人数据集,以便更好地重用。
附注:不是在推销什么;只是想了解现实与叙述之间的差异。我们是几个机器学习学生,之前主要做机器学习/软件相关工作,但过去几个月我们一直在尝试VLA、机器人数据集,并试图理解这个领域的发展方向。花了数周下载机器人数据集后,我们惊讶于仅仅将数据转换为可用格式就需要付出如此多的努力。也许我们遗漏了什么,但感觉每个数据集都有不同的假设、模式、传感器、坐标框架、元数据标准和工具链。这让我们开始思考:机器人团队实际上如何看待数据共享?人们真的希望获得更多机器人数据,还是行业正朝着“自己收集数据,因为别人的数据无法迁移”的方向发展?我们目前的(可能非常错误)假设是:机器人生态系统不存在数据稀缺问题。它存在的是数据互操作性问题。我们正在考虑进行一个相当大的实验:获取我们能接触到的几乎所有公开的机器人学习数据集,将其标准化为通用模式,用元数据丰富它,并看看其中有多少数据真正可以在不同任务、实体和学习流程中重用。在我们花数月时间做这件事之前,我们很想听听实际从事机器人构建的人的意见。这个假设在哪些方面是错误的?寻找数据实际上不是问题吗?实体不匹配是真正的障碍吗?质量是问题吗?标注是问题吗?大家是否仍然只是自己收集数据?你会使用其他团队收集的机器人数据吗?如果我明天给你一个API,让你访问所有公开机器人数据集,你会实际用它做什么?还是完全忽略它?\------------------------------------------------------------------------------------------------------ 编辑:一点澄清 我们不是在考虑市场、专有格式或封闭平台。我们考虑的实验要简单得多:尽可能多地获取公开机器人数据,标准化,用元数据/质量信号丰富它,使其可搜索,并以开放格式回馈社区。这对实践者来说会有用吗?
相似文章
神经数据不再无聊:代理型AI在数据复用中的基准测试
本文对代理型AI系统在加载、理解和重新格式化碎片化的神经科学数据任务上进行基准测试,发现尽管代理在子任务上表现良好,但很少能实现完全无错误的端到端解决方案,人工监督仍然必要。
为什么针对智能体工作流的真实数据集仍然难以找到?
讨论了AI智能体工作流真实数据集的稀缺性,指出现有基准测试未能捕捉到混乱的生产场景,如工具故障、模糊请求和长时间对话漂移,并寻求更好的数据集推荐。
@timoreilly: 我大约一个月前写了这篇文章(《AI科学的协作外骨骼》),然后忘记发布了!它是一…
Tim O'Reilly 讨论了将AI整合到科学出版中的挑战,包括幻觉引用、已撤稿论文的传播以及在受损文献上进行训练,并呼吁调整现有的科学基础设施以用于AI。
开源模型落后了多少?(17分钟阅读)
LessWrong上的一篇分析,探讨了开源与专有AI模型之间的性能差距。
AI让大规模网页抓取变得触手可及。这是一个问题吗?
本文探讨了AI编程助手如何使普通大众能够进行大规模网页抓取,由此引发了关于忽略robots.txt和速率限制的道德问题,并对AI提供者的责任提出质疑。