标签
NVIDIA的新芯片使得在本地运行500B参数的模型成为可能,凸显出AI安全措施仅仅是行为上的减速带,离线即消失,为大规模欺骗和操纵带来了前所未有的风险。
InSight提出了一种框架,用于在视觉-语言-动作(VLA)模型中实现自主技能获取。该框架通过在原始动作层面实现可操控性,并利用VLM引导的数据飞轮生成演示,从而在没有人类演示的情况下完成诸如翻转方块和倒水等操作任务。
本文提出了World Value Model (WVM),一种通用机器人价值模型,它将世界模型与价值估计相结合,以准确评估任务进展,并从混合质量数据中改进机器人策略学习,在标准基准和新的次优数据基准上取得了最先进的结果。
ENPIRE是一个框架,使编码代理能够通过真实世界的反馈循环自主改进机器人操作策略,在插针和剪扎带等灵巧任务上实现了99%的成功率。
康奈尔大学的新研究表明,来自Reddit或Wikipedia等网站上仅13个字的用户生成文本片段,就能用来操纵ChatGPT和Google AI Search等AI搜索工具,凸显了AI信息检索中日益严重的漏洞。
AGIBOT的人形机器人完美地调制了一杯饮料,展示了精准的操作能力。这家成立仅三年的公司本季度已交付5000台机器人,当前专注于完善动作而非追求速度。
一项新研究表明,AI辅助的同行评审易通过廉价手段被操控——仅需对论文摘要进行表面改写,即可显著提高AI生成的评审分数,并可能使人类编辑决策产生偏差,凸显了建立防护措施的必要性。
World Pilot 通过融入来自世界动作模型的动态场景演变和轨迹先验来增强视觉-语言-动作模型,在操作任务上实现了最先进的零样本性能。
一篇由30位专家合著的新论文探讨了来自人工智能的认知风险—即对我们形成准确信念和良好推理能力的威胁—包括说服、认知卸载和反馈循环等机制,并概述了减轻这些风险的方向。
ActiveMimic 是一个预训练框架,它从自我中心人体视频中恢复相机和手腕轨迹,将主动感知建模为视角动作,从而使机器人预训练能够达到与直接在机器人数据上训练的模型相当的性能。
本文介绍了用于评估大语言模型中编辑事实性意见能力的FactualOpinionEditing with Evidence (FOE)基准,并提出了一种自生成证据对齐方法来改善意见-证据对齐。
RoboWits 是一个双臂机器人基准测试,系统评估认知推理、创造性工具使用以及应对意外条件的鲁棒性,揭示了当前机器人策略和预训练VLA在变异任务上的显著性能差距。
DynaFLIP 是一个动力学感知的多模态预训练框架,将运动理解整合到机器人操作的视觉感知中。它使用图像-语言-3D流三元组和几何正则化来改进表征学习,在分布外场景中取得了显著提升。
波士顿动力展示了新型Atlas人形机器人如何通过模拟训练学习复杂的操作任务(例如搬运重型冰箱),从而实现从设计到实际执行快速迭代,且模拟到现实的差距极小。
Google 更新了其垃圾信息政策,明确禁止试图操纵其生成式 AI 搜索结果的尝试,并对违规者进行处罚。
来自卡内基梅隆大学(CMU)和博世AI中心的研究人员推出了Humanoid Transformer with Touch Dreaming (HTD) 模型,该模型利用触觉信号预测来改进人形机器人的操控能力,在五个真实世界任务中,平均成功率比ACT基线高出90.9%。
介绍了WarmPrior,该方法将流匹配策略中的标准高斯源替换为来自近期动作历史的时间约束先验,通过生成更直的路径概率,持续提升机器人操控任务的成功率。
Genesis AI 突出了使用 Gene 2.6.5 在机器人操作方面的进展,旨在达到人类水平的灵巧度。文章讨论了训练机器人执行复杂物理任务的进展。