exploration-exploitation

#exploration-exploitation

LatentGym: 面向可控隐变量结构的跨任务经验学习测试平台

arXiv cs.LG ↗ · 2026-06-16 缓存

介绍了LatentGym，这是一个可控测试平台，用于研究LLM代理的跨任务经验学习，能够测量探索与利用，并揭示前沿模型为何无法在相关任务间适应。

0 人收藏 0 人点赞

#exploration-exploitation

重新审视熵正则化：自适应系数释放其在LLM强化学习中的潜力

arXiv cs.CL ↗ · 2026-04-20 缓存

本文提出自适应熵正则化（AER）框架，通过难度感知的系数分配和初始锚定目标熵来动态平衡LLM强化学习中的探索与利用，解决策略熵坍缩问题。在数学推理基准上的实验验证了该方法在准确性和探索能力上的一致性改进。

0 人收藏 0 人点赞

#exploration-exploitation

DiPO：基于解耦困惑度的策略优化，实现细粒度探索-利用权衡

Hugging Face Daily Papers ↗ · 2026-04-15 缓存

# 论文页面 - DiPO：基于解耦困惑度的策略优化，实现细粒度探索-利用权衡来源：[https://huggingface.co/papers/2604.13902](https://huggingface.co/papers/2604.13902) 作者：,,,,,,,,,, ## 摘要一种面向大语言模型的新型强化学习方法，通过基于困惑度的样本划分与双向奖励分配机制，解决探索-利用权衡问题。[强化学习](https:

0 人收藏 0 人点赞

exploration-exploitation

LatentGym: 面向可控隐变量结构的跨任务经验学习测试平台

重新审视熵正则化：自适应系数释放其在LLM强化学习中的潜力

DiPO：基于解耦困惑度的策略优化，实现细粒度探索-利用权衡

提交意见反馈