exploration

标签

Cards List
#exploration

ExTra:面向语言模型强化学习的探索性轨迹优化

arXiv cs.LG · 7小时前 缓存

ExTra 引入了面向语言模型强化学习的探索性轨迹优化,结合新颖性奖励和熵引导的前缀重生成,在数学推理基准上同时提升单样本准确率和推理时覆盖率。

0 人收藏 0 人点赞
#exploration

奖励作为具身世界模型的智能体

arXiv cs.AI · 5天前 缓存

本文介绍了奖励作为智能体(Reward as an Agent)和DynDiff-GRPO,以解决具身世界模型中强化学习的奖励黑客攻击和有限探索问题,实现了显著的准确率提升。

0 人收藏 0 人点赞
#exploration

GraphPO:面向推理模型的基于图策略优化

arXiv cs.CL · 2026-06-18 缓存

GraphPO 是一种新颖的基于图的强化学习框架,它将轨迹表示为一个有向无环图,合并语义等价的推理路径,以减少冗余探索并改进大型推理模型的信用分配。

0 人收藏 0 人点赞
#exploration

@svlevine: 流反转引导允许使用高层动作(例如来自VLM推理)来“引导”基于扩散的VLA。……

X AI KOLs Following · 2026-06-12 缓存

流反转引导能够使用高层动作(例如来自VLM推理)来引导基于扩散的视觉-语言-动作模型,并允许在扩散噪声空间中进行强化学习以实现任务探索。

0 人收藏 0 人点赞
#exploration

推理还是记忆?LLM强化学习中的方向感知多样性探索

arXiv cs.AI · 2026-06-10 缓存

本文介绍了DiRL,一种方向感知的强化学习框架,能够在LLM探索中区分推理驱动的多样性和记忆驱动的多样性。它从模型表示中提取内在的推理-记忆方向,并塑造奖励以优先考虑与推理一致的探索,在数学和通用推理基准上表现出改进。

0 人收藏 0 人点赞
#exploration

@rohanpaul_ai: AGI需要的是主动探索未知的智能体,而不仅仅是更好回答问题的模型。这篇新的大型(111页……

X AI KOLs Following · 2026-06-09 缓存

来自美国和中国顶尖实验室的一篇新综述论文提出,AGI需要智能体通过认知探索主动探索不确定性,并将其组织为AI进步的五个层次。

0 人收藏 0 人点赞
#exploration

@NielsRogge:所有4,361篇@iclr_conf 2026论文,包括Oral演讲和杰出论文,现可在PwC上探索!按任务分…

X AI KOLs Following · 2026-06-05 缓存

所有4,361篇ICLR 2026论文,包括Oral演讲和杰出论文,现可在Papers with Code上按任务浏览,任务范围从3D生成到GUI代理。

0 人收藏 0 人点赞
#exploration

你好!我制作了一个探索kokoro的工具。

Reddit r/LocalLLaMA · 2026-06-05

用户发布了一个开源工具来探索kokoro模型,代码在GitHub上,模型数据在HuggingFace上。

0 人收藏 0 人点赞
#exploration

基于重试的策略梯度强化学习中探索的涌现

arXiv cs.LG · 2026-06-02 缓存

本文提出ReMax,一种新的强化学习目标函数,通过基于多个样本的期望最大回报来评估策略,从而将探索作为涌现属性引入,无需显式的探索奖励。作者推导了策略梯度公式,并提出了RePPO,一种PPO变体,在MinAtar和Craftax基准测试上实现了高效探索。

0 人收藏 0 人点赞
#exploration

学习适应:基于认知感知探索的自我改进网络智能体

arXiv cs.AI · 2026-06-01 缓存

提出了SCALE框架,用于自我改进的网络智能体,采用认知感知探索,包含三个对抗角色和图探索策略。同时介绍了从真实网站收集的大规模数据集SCALE-20k,显著提升了基于MLLM的网络智能体的性能。

0 人收藏 0 人点赞
#exploration

破坏是学习生成的通用策略;扩散模型的优势在于认真对待;探索是未来

arXiv cs.LG · 2026-06-01 缓存

本文介绍了扩散模型作为一类技术的组成部分,这类技术会隐藏信息并训练模型猜测这些信息,认为扩散的破坏性方法灵活且具有优势,尤其在数据稀缺的场景下;文章还讨论了探索问题,并介绍了一种新型的概率图模型。

0 人收藏 0 人点赞
#exploration

基于新奇信号的联合代理记忆与探索学习

Hugging Face Daily Papers · 2026-06-01 缓存

本文介绍了JAMEL框架,该框架利用新奇信号联合训练代理记忆与探索策略,从而在开放环境中实现高效探索,并降低计算成本。

0 人收藏 0 人点赞
#exploration

统一建模与探索的生成式自动竞价

arXiv cs.AI · 2026-05-20 缓存

本文介绍了Guide框架,该框架结合了决策Transformer、Q值引导和逆动力学模块,在数字广告自动出价中平衡探索与安全性,并在公开数据集和模拟拍卖中展示了有效性。

0 人收藏 0 人点赞
#exploration

并非所有不确定性都一样:波动性、随机性与探索

arXiv cs.AI · 2026-05-20 缓存

本文证明,波动性和随机性作为不确定性的两种来源,推动最优探索向相反方向变化:波动性增加探索,而随机性抑制探索。作者将Gittins指数框架扩展到高斯状态空间赌博机,并引入了CAUSE——一种闭式探索奖励,其性能优于标准策略。

0 人收藏 0 人点赞
#exploration

任天堂不断寻找重新定义平台游戏的新方式

The Verge · 2026-05-19 缓存

任天堂的《耀西与神秘之书》通过将目标从竞争转向探索,重新定义了平台游戏类型。故事设定在一本故事书中,玩家可以探索生物及其能力,且没有失败状态。

0 人收藏 0 人点赞
#exploration

QuantFPFlow:连续强化学习中的Fokker-Planck策略优化的量子振幅估计

arXiv cs.LG · 2026-05-19 缓存

介绍QuantFPFlow,一种强化学习框架,利用量子振幅估计在连续控制的Fokker-Planck配分函数估计中实现二次加速,从而改善探索并避免局部最优。

0 人收藏 0 人点赞
#exploration

@jennyzhangzt: 通用智能需要重新思考探索

X AI KOLs Timeline · 2026-05-16 缓存

本文认为,探索对于所有学习系统(包括监督学习)都是至关重要的,并提出了一种通用探索框架,以推动开放式学习走向通用智能。

0 人收藏 0 人点赞
#exploration

超越舒适区的助推:面向RLVR的高效策略引导探索

Hugging Face Daily Papers · 2026-05-15 缓存

NudgeRL是一个框架,通过引入结构化探索和策略助推来增强带有可验证奖励的强化学习(RLVR),相比暴力扩展方法,它能更高效地提升大语言模型的推理性能。

0 人收藏 0 人点赞
#exploration

学习探索:通过探索感知策略优化扩展代理推理

Hugging Face Daily Papers · 2026-05-12 缓存

本文提出一种探索感知的强化学习框架,使LLM代理仅在不确定性高时自适应探索,从而提升在基于文本和基于GUI的基准测试上的性能。

0 人收藏 0 人点赞
#exploration

SPS:通过概率挤压引导实现大语言模型强化学习中的更优探索

arXiv cs.CL · 2026-04-21 缓存

研究人员提出了 SPS(概率挤压引导),这是一种结合强化学习与逆强化学习的训练范式,旨在解决大语言模型推理训练中的概率挤压问题。该问题表现为概率质量过度集中于高奖励轨迹,导致探索空间受限及多样本性能(Pass@k)下降。在五个推理基准上的实验表明,该方法有效提升了模型的探索能力与 Pass@k 指标。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈