标签
ExTra 引入了面向语言模型强化学习的探索性轨迹优化,结合新颖性奖励和熵引导的前缀重生成,在数学推理基准上同时提升单样本准确率和推理时覆盖率。
本文介绍了奖励作为智能体(Reward as an Agent)和DynDiff-GRPO,以解决具身世界模型中强化学习的奖励黑客攻击和有限探索问题,实现了显著的准确率提升。
GraphPO 是一种新颖的基于图的强化学习框架,它将轨迹表示为一个有向无环图,合并语义等价的推理路径,以减少冗余探索并改进大型推理模型的信用分配。
流反转引导能够使用高层动作(例如来自VLM推理)来引导基于扩散的视觉-语言-动作模型,并允许在扩散噪声空间中进行强化学习以实现任务探索。
本文介绍了DiRL,一种方向感知的强化学习框架,能够在LLM探索中区分推理驱动的多样性和记忆驱动的多样性。它从模型表示中提取内在的推理-记忆方向,并塑造奖励以优先考虑与推理一致的探索,在数学和通用推理基准上表现出改进。
来自美国和中国顶尖实验室的一篇新综述论文提出,AGI需要智能体通过认知探索主动探索不确定性,并将其组织为AI进步的五个层次。
所有4,361篇ICLR 2026论文,包括Oral演讲和杰出论文,现可在Papers with Code上按任务浏览,任务范围从3D生成到GUI代理。
本文提出ReMax,一种新的强化学习目标函数,通过基于多个样本的期望最大回报来评估策略,从而将探索作为涌现属性引入,无需显式的探索奖励。作者推导了策略梯度公式,并提出了RePPO,一种PPO变体,在MinAtar和Craftax基准测试上实现了高效探索。
提出了SCALE框架,用于自我改进的网络智能体,采用认知感知探索,包含三个对抗角色和图探索策略。同时介绍了从真实网站收集的大规模数据集SCALE-20k,显著提升了基于MLLM的网络智能体的性能。
本文介绍了扩散模型作为一类技术的组成部分,这类技术会隐藏信息并训练模型猜测这些信息,认为扩散的破坏性方法灵活且具有优势,尤其在数据稀缺的场景下;文章还讨论了探索问题,并介绍了一种新型的概率图模型。
本文介绍了JAMEL框架,该框架利用新奇信号联合训练代理记忆与探索策略,从而在开放环境中实现高效探索,并降低计算成本。
本文介绍了Guide框架,该框架结合了决策Transformer、Q值引导和逆动力学模块,在数字广告自动出价中平衡探索与安全性,并在公开数据集和模拟拍卖中展示了有效性。
本文证明,波动性和随机性作为不确定性的两种来源,推动最优探索向相反方向变化:波动性增加探索,而随机性抑制探索。作者将Gittins指数框架扩展到高斯状态空间赌博机,并引入了CAUSE——一种闭式探索奖励,其性能优于标准策略。
任天堂的《耀西与神秘之书》通过将目标从竞争转向探索,重新定义了平台游戏类型。故事设定在一本故事书中,玩家可以探索生物及其能力,且没有失败状态。
介绍QuantFPFlow,一种强化学习框架,利用量子振幅估计在连续控制的Fokker-Planck配分函数估计中实现二次加速,从而改善探索并避免局部最优。
本文认为,探索对于所有学习系统(包括监督学习)都是至关重要的,并提出了一种通用探索框架,以推动开放式学习走向通用智能。
NudgeRL是一个框架,通过引入结构化探索和策略助推来增强带有可验证奖励的强化学习(RLVR),相比暴力扩展方法,它能更高效地提升大语言模型的推理性能。
本文提出一种探索感知的强化学习框架,使LLM代理仅在不确定性高时自适应探索,从而提升在基于文本和基于GUI的基准测试上的性能。
研究人员提出了 SPS(概率挤压引导),这是一种结合强化学习与逆强化学习的训练范式,旨在解决大语言模型推理训练中的概率挤压问题。该问题表现为概率质量过度集中于高奖励轨迹,导致探索空间受限及多样本性能(Pass@k)下降。在五个推理基准上的实验表明,该方法有效提升了模型的探索能力与 Pass@k 指标。