sample-efficiency

#sample-efficiency

StraTA：通过策略轨迹抽象激励智能体强化学习

Hugging Face Daily Papers ↗ · 3天前缓存

StraTA 提出了面向长期任务 LLM 智能体的策略轨迹抽象方法，通过分层 GRPO 风格的 rollout、多样化策略采样和批判性自判断机制，在样本效率和最终性能上超越了前沿模型和先前 RL 基线。

0 人收藏 0 人点赞

#sample-efficiency

# 面向大语言模型/视觉语言模型强化学习的鲜度感知优先经验回放来源：[https://arxiv.org/html/2604.16918](https://arxiv.org/html/2604.16918) Weiyu Ma1 Yongcheng Zeng2 Yan Song3 Xinyu Cui2 Jian Zhao4 Xuhui Liu1 Mohamed Elhoseiny1 1 阿卜杜拉国王科技大学 (KAUST) 2 中国科学院自动化研究所 (CASIA) 3 伦敦大学学院计算机科学系人工智能中心 4 中关村人工智能研究院 weiyu\.

0 人收藏 0 人点赞

#sample-efficiency

Procgen 和 MineRL 竞赛

OpenAI Blog ↗ · 2020-06-20 缓存

OpenAI 联合组织 MineRL 2020 竞赛，推进样本高效的强化学习算法研究，这些算法能够利用人类示范。参赛者需要在仅有 800 万个模拟器样本和 4 天单 GPU 训练时间的限制下，在 Minecraft 中获得钻石，同时可以访问 6000 多万帧的人类示范数据集。

0 人收藏 0 人点赞

#sample-efficiency

从人类偏好中学习

OpenAI Blog ↗ · 2017-06-13 缓存

OpenAI 提出了一种使用人类偏好反馈训练 AI 智能体的方法，智能体通过人类对行为轨迹的比较来学习奖励函数，并使用强化学习来优化推断的目标。该方法展示了很强的样本效率，需要少于 1000 比特的人类反馈就能训练智能体完成后翻。

0 人收藏 0 人点赞

sample-efficiency

StraTA：通过策略轨迹抽象激励智能体强化学习

面向大语言模型/视觉语言模型强化学习的鲜度感知优先经验回放

Procgen 和 MineRL 竞赛

从人类偏好中学习

提交意见反馈