experience-replay

#experience-replay

CLaaS：面向样本高效在线学习的持续学习即服务

arXiv cs.LG ↗ · 2026-06-05 缓存

CLaaS是一个系统，用于对部署中的LLM智能体进行持续学习，利用经验回放实现样本高效的在线适应。

0 人收藏 0 人点赞

#experience-replay

从模仿到交互：使用浅层强化学习掌握Schnapsen游戏

arXiv cs.AI ↗ · 2026-05-19 缓存

本文研究浅层神经网络代理是否能够通过强化学习掌握纸牌游戏Schnapsen，超越监督模仿基线，并在一项与基于强搜索的对手的对比中取得有竞争力的结果。

0 人收藏 0 人点赞

#experience-replay

# 面向大语言模型/视觉语言模型强化学习的鲜度感知优先经验回放来源：[https://arxiv.org/html/2604.16918](https://arxiv.org/html/2604.16918) Weiyu Ma1 Yongcheng Zeng2 Yan Song3 Xinyu Cui2 Jian Zhao4 Xuhui Liu1 Mohamed Elhoseiny1 1 阿卜杜拉国王科技大学 (KAUST) 2 中国科学院自动化研究所 (CASIA) 3 伦敦大学学院计算机科学系人工智能中心 4 中关村人工智能研究院 weiyu\.

0 人收藏 0 人点赞

#experience-replay

后见之明经验回放

OpenAI Blog ↗ · 2017-07-05 缓存

# 后见之明经验回放来源：[https://openai.com/index/hindsight-experience-replay/](https://openai.com/index/hindsight-experience-replay/) ## 摘要处理稀疏奖励是强化学习（RL）中最大的挑战之一。我们提出了一种名为后见之明经验回放的新颖技术，它允许从稀疏二元奖励中进行样本高效学习，因此避免了复杂的奖励工程设计的需要。它可以与任意组合

0 人收藏 0 人点赞

experience-replay

CLaaS：面向样本高效在线学习的持续学习即服务

从模仿到交互：使用浅层强化学习掌握Schnapsen游戏

面向大语言模型/视觉语言模型强化学习的鲜度感知优先经验回放

后见之明经验回放

提交意见反馈