语言代理的策略与世界模型协同训练
摘要
本文介绍PaW,一种协同训练框架,在在线策略强化学习(on-policy RL)轨迹中向策略学习添加辅助世界模型监督,无需额外计算开销即可改进语言代理的训练。
查看缓存全文
缓存时间: 2026/06/02 15:34
论文页面 - 策略与世界建模联合训练用于语言智能体
来源:https://huggingface.co/papers/2606.02388
作者:
,
,
,
,
,
,
,
,
,
,
摘要
PaW 是一个联合训练框架,通过利用基于策略的强化学习采样数据,结合策略学习与世界建模,在不增加额外计算开销的情况下提升语言智能体训练效果。
强化学习 (https://huggingface.co/papers?q=Reinforcement%20learning) (RL) 通过教导大型语言模型 (LLM) 智能体哪些行动能获得高奖励来提升其性能,但很少监督这些行动对环境造成的影响。世界建模 (https://huggingface.co/papers?q=World%20modeling) (WM) 可以弥补这一不足,然而现有方法通常需要单独的模拟器、额外的训练阶段或额外的推理时计算。我们观察到,基于策略的 RL (https://huggingface.co/papers?q=on-policy%20RL) 采样数据已经包含了所需信号:每一次转移都将一个行动与其产生的下一个观测结果配对。基于此观察,我们提出了 PaW,一个策略与世界建模 (https://huggingface.co/papers?q=World%20modeling) 联合训练框架,在 RL 过程中为同一策略添加辅助的 WM 监督,且不改变推理范式。为了使辅助 WM 监督更具信息性和稳定性,PaW 引入了三个组件:基于行动熵的 WM 数据选择、噪声容忍的 WM 损失函数,以及奖励自适应的损失平衡 (https://huggingface.co/papers?q=reward-adaptive%20loss%20balancing)。在三个智能体任务基准上的实验表明,该方法在多种模型和 RL 算法上均优于强 RL 基线。这些结果表明,标准的 RL 采样数据是语言智能体训练中实用的 WM 监督来源。
查看 arXiv 页面 (https://arxiv.org/abs/2606.02388)查看 PDF (https://arxiv.org/pdf/2606.02388)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.02388)
在您的智能体中获取此论文:
hf papers read 2606\.02388
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用该论文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.02388 以从此页面链接。
引用该论文的数据集0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.02388 以从此页面链接。
引用该论文的空间0
没有空间链接此论文
请在空间 README.md 中引用 arxiv.org/abs/2606.02388 以从此页面链接。
包含该论文的合集0
没有合集包含此论文
请将论文添加到合集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
面向长视界语言智能体的里程碑引导策略学习
本文介绍了 BEACON,这是一种旨在改善长视界语言智能体的信用分配和采样效率的里程碑引导策略学习框架。在 ALFWorld、WebShop 和 ScienceWorld 等基准测试上,该框架表现出显著优于 GRPO 和 GiGPO 的性能提升。
使用语言模型先验从观测中学习POMDP世界模型
本文介绍了Pinductor,一种利用语言模型先验从有限的观测-动作数据中高效学习POMDP世界模型的方法,其性能与具有特权隐藏状态访问的方法相当,同时超越了传统的表格方法。
世界模型与语言模型相遇:论具体推理与抽象推理的互补性
本文提出特权未来在策略自蒸馏(PF-OPSD)方法,用于受控具体推理,结合世界模型的视觉模拟与语言模型的抽象推理,在两个新基准上提升预测准确性和鲁棒性。
面向长程语言智能体可验证强化学习的策略条件化反事实信用
提出了CVT-RL,一种带有策略条件化反事实贡献估计和可验证奖励的约束策略梯度算法,提高了长程语言智能体的可靠性并减少了奖励篡改。
从动作引导中学习智能体策略
本文提出了 ActGuide-RL,这是一种利用人类动作数据作为指导来训练大语言模型(LLM)智能体策略的方法,旨在无需大量监督微调的情况下克服强化学习中的探索障碍。