policy-learning

#policy-learning

用于机器人操作的 World Value Models

Hugging Face Daily Papers ↗ · 昨天缓存

本文提出了World Value Model (WVM)，一种通用机器人价值模型，它将世界模型与价值估计相结合，以准确评估任务进展，并从混合质量数据中改进机器人策略学习，在标准基准和新的次优数据基准上取得了最先进的结果。

0 人收藏 0 人点赞

#policy-learning

@omarsar0: // 自动化 SKILL.md 生成 // 越来越多的挖掘会话是提升智能体的最佳方式之一。打开…

X AI KOLs Following ↗ · 5天前缓存

这篇来自麻省理工学院和哈佛大学的论文探讨了通过挖掘 GUI 交互轨迹来自动化生成 SKILL.md，发现聚类结果可读性强，但未能提升跨领域的策略性能。

0 人收藏 0 人点赞

#policy-learning

PoLAR: 因子化潜动作中的范围与模式以用于机器人策略学习

Hugging Face Daily Papers ↗ · 5天前缓存

PoLAR 在双曲空间中引入了一种具有几何结构的潜动作表示，将转换范围与模式分离，从而提升机器人策略学习性能。

0 人收藏 0 人点赞

#policy-learning

@HuggingPapers：用于机器人策略学习的几何动作模型，复用几何基础模型作为感知的骨干网络…

X AI KOLs Following ↗ · 2026-06-16 缓存

几何动作模型将几何基础模型用于机器人策略学习，在LIBERO-Plus上达到85.5%的准确率，推理仅需6.9毫秒，比基线模型快55倍。

0 人收藏 0 人点赞

#policy-learning

Geometric Action Model 用于机器人策略学习

Hugging Face Daily Papers ↗ · 2026-06-15 缓存

Geometric Action Model (GAM) 将预训练的几何基础模型 (GFM) 重新用作语言条件机器人操作的统一骨干，在模拟和真实世界基准测试中，相比现有的基础模型规模基线，实现了更高的准确性、鲁棒性和效率。

0 人收藏 0 人点赞

#policy-learning

Light-WAM：基于状态融合动作解码的高效世界动作模型

Hugging Face Daily Papers ↗ · 2026-06-06 缓存

Light-WAM是一种轻量级世界动作模型，用于高效机器人操作。它采用紧凑视频骨干网络和降采样潜在空间进行未来视频监督，在保持低推理延迟的同时实现了高性能。

0 人收藏 0 人点赞

#policy-learning

DiffAero：一个用于高效四旋翼策略学习的GPU加速可微仿真框架

arXiv cs.AI ↗ · 2026-06-04 缓存

DiffAero 是一个面向四旋翼控制策略学习的GPU加速、完全可微仿真框架，支持环境级与智能体级并行、多种动力学模型以及可定制传感器。它能够在消费级硬件上数小时内完成鲁棒飞行策略的学习，并以开源形式发布。

0 人收藏 0 人点赞

#policy-learning

能力自我评估：教会LLMs认识自身局限

arXiv cs.AI ↗ · 2026-06-02 缓存

本文针对大语言模型提出了能力自我评估（CSA）方法，并将其建模为策略学习问题。实验表明，强化学习能够有效教会模型识别自身局限并委托处理无法解决的查询，效果优于监督微调，且具有良好的分布外泛化能力。

0 人收藏 0 人点赞

#policy-learning

τ_0-WM: 用于机器人操作的统一视频-动作世界模型

Hugging Face Daily Papers ↗ · 2026-05-31 缓存

τ_0-WM是一个统一的视频-动作世界模型，用于机器人操作，它通过共享的视频扩散主干集成了策略学习、视频预测和动作评估。在具有挑战性的长周期和细粒度任务上表现出卓越性能。

0 人收藏 0 人点赞

#policy-learning

可操作的世界表示

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

WorldString是一种神经架构，能够从点云或RGB-D视频流中建模物体状态流形，作为物理世界模型的基础组件，其可微结构便于与策略学习集成。

0 人收藏 0 人点赞

#policy-learning

基于大语言模型智能体进行分层广义规划时的策略分解学习与复用

arXiv cs.AI ↗ · 2026-05-11 缓存

本文介绍了 HCL-GP，这是一种动态策略学习框架，将广义规划与分层任务分解相结合，使基于大语言模型（LLM）的智能体能够学习和复用可执行的策略组件，从而在 AppWorld 基准测试上显著提升性能。

0 人收藏 0 人点赞

#policy-learning

LeRobot v0.5.0：全面扩展

Hugging Face Blog ↗ · 2026-03-09 缓存

LeRobot v0.5.0 是一个重大版本，支持 Unitree G1 人形机器人、新的策略架构（Pi0-FAST VLAs、实时分块）、用于提升 3 倍训练速度的流式视频编码，以及用于从 Hugging Face Hub 加载仿真环境的 EnvHub。

0 人收藏 0 人点赞

#policy-learning

多智能体系统中的策略表示学习

OpenAI Blog ↗ · 2018-06-17 缓存

OpenAI 研究人员提出了一个通用框架，用于在多智能体系统中使用最少的交互数据学习智能体策略的表示，将该问题视为表示学习，并应用于竞争控制和合作通信环境。

0 人收藏 0 人点赞

#policy-learning

学习层级结构

OpenAI Blog ↗ · 2017-10-26 缓存

OpenAI 研究提出分层强化学习方法，其中智能体将复杂任务分解为高级操作序列而非低级操作，通过将搜索复杂度从数千步降低到数十步，显著提高长视野任务的效率。

0 人收藏 0 人点赞

#policy-learning

通过动力学随机化实现机器人控制的仿真到现实迁移

OpenAI Blog ↗ · 2017-10-18 缓存

OpenAI 研究人员演示了一种通过使用随机化的模拟器动力学来训练策略，从而弥合现实差距的方法。这使得完全在仿真环境中训练的机器人能够成功迁移到现实世界任务，如物体操作，无需进行物理训练。

0 人收藏 0 人点赞

policy-learning

提交意见反馈