语言代理的策略与世界模型协同训练

Hugging Face Daily Papers 论文

摘要

本文介绍PaW,一种协同训练框架,在在线策略强化学习(on-policy RL)轨迹中向策略学习添加辅助世界模型监督,无需额外计算开销即可改进语言代理的训练。

强化学习(RL)通过教导大型语言模型(LLM)代理哪些行动能带来高回报来改进它们,但对这些行动对环境造成的影响却鲜有监督。世界模型(WM)可以填补这一空白,但现有方法通常需要独立的模拟器、额外的训练阶段或额外的推理时计算。我们观察到,在线策略RL轨迹已经包含了所需信号:每次转移都将一个行动与其产生的下一个观察配对。基于这一观察,我们提出了PaW,一种策略与世界模型协同训练框架,它在不改变推理范式的情况下,在RL过程中向同一策略添加辅助WM监督。为了使辅助WM监督信息丰富且稳定,PaW引入了三个组件:基于行动熵的WM数据选择、噪声容忍的WM损失以及奖励自适应损失平衡。在三个智能体任务基准上的实验表明,在多种模型和RL算法中,该方法都比强RL基线取得了持续的改进。这些结果表明,标准的RL轨迹是语言代理训练中WM监督的一个实用来源。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:34

论文页面 - 策略与世界建模联合训练用于语言智能体

来源:https://huggingface.co/papers/2606.02388

作者:

,

,

,

,

,

,

,

,

,

,

摘要

PaW 是一个联合训练框架,通过利用基于策略的强化学习采样数据,结合策略学习与世界建模,在不增加额外计算开销的情况下提升语言智能体训练效果。

强化学习 (https://huggingface.co/papers?q=Reinforcement%20learning) (RL) 通过教导大型语言模型 (LLM) 智能体哪些行动能获得高奖励来提升其性能,但很少监督这些行动对环境造成的影响。世界建模 (https://huggingface.co/papers?q=World%20modeling) (WM) 可以弥补这一不足,然而现有方法通常需要单独的模拟器、额外的训练阶段或额外的推理时计算。我们观察到,基于策略的 RL (https://huggingface.co/papers?q=on-policy%20RL) 采样数据已经包含了所需信号:每一次转移都将一个行动与其产生的下一个观测结果配对。基于此观察,我们提出了 PaW,一个策略与世界建模 (https://huggingface.co/papers?q=World%20modeling) 联合训练框架,在 RL 过程中为同一策略添加辅助的 WM 监督,且不改变推理范式。为了使辅助 WM 监督更具信息性和稳定性,PaW 引入了三个组件:基于行动熵的 WM 数据选择、噪声容忍的 WM 损失函数,以及奖励自适应的损失平衡 (https://huggingface.co/papers?q=reward-adaptive%20loss%20balancing)。在三个智能体任务基准上的实验表明,该方法在多种模型和 RL 算法上均优于强 RL 基线。这些结果表明,标准的 RL 采样数据是语言智能体训练中实用的 WM 监督来源。

查看 arXiv 页面 (https://arxiv.org/abs/2606.02388)查看 PDF (https://arxiv.org/pdf/2606.02388)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.02388)

在您的智能体中获取此论文:

hf papers read 2606\.02388

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.02388 以从此页面链接。

引用该论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.02388 以从此页面链接。

引用该论文的空间0

没有空间链接此论文

请在空间 README.md 中引用 arxiv.org/abs/2606.02388 以从此页面链接。

包含该论文的合集0

没有合集包含此论文

请将论文添加到合集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

面向长视界语言智能体的里程碑引导策略学习

arXiv cs.CL

本文介绍了 BEACON,这是一种旨在改善长视界语言智能体的信用分配和采样效率的里程碑引导策略学习框架。在 ALFWorld、WebShop 和 ScienceWorld 等基准测试上,该框架表现出显著优于 GRPO 和 GiGPO 的性能提升。

使用语言模型先验从观测中学习POMDP世界模型

Hugging Face Daily Papers

本文介绍了Pinductor,一种利用语言模型先验从有限的观测-动作数据中高效学习POMDP世界模型的方法,其性能与具有特权隐藏状态访问的方法相当,同时超越了传统的表格方法。

从动作引导中学习智能体策略

arXiv cs.CL

本文提出了 ActGuide-RL,这是一种利用人类动作数据作为指导来训练大语言模型(LLM)智能体策略的方法,旨在无需大量监督微调的情况下克服强化学习中的探索障碍。