语言代理的策略与世界模型协同训练

Hugging Face Daily Papers 2026/06/01 00:00 论文

reinforcement-learning world-modeling language-agents co-training on-policy-rl llm-agents

摘要

本文介绍PaW，一种协同训练框架，在在线策略强化学习（on-policy RL）轨迹中向策略学习添加辅助世界模型监督，无需额外计算开销即可改进语言代理的训练。

强化学习（RL）通过教导大型语言模型（LLM）代理哪些行动能带来高回报来改进它们，但对这些行动对环境造成的影响却鲜有监督。世界模型（WM）可以填补这一空白，但现有方法通常需要独立的模拟器、额外的训练阶段或额外的推理时计算。我们观察到，在线策略RL轨迹已经包含了所需信号：每次转移都将一个行动与其产生的下一个观察配对。基于这一观察，我们提出了PaW，一种策略与世界模型协同训练框架，它在不改变推理范式的情况下，在RL过程中向同一策略添加辅助WM监督。为了使辅助WM监督信息丰富且稳定，PaW引入了三个组件：基于行动熵的WM数据选择、噪声容忍的WM损失以及奖励自适应损失平衡。在三个智能体任务基准上的实验表明，在多种模型和RL算法中，该方法都比强RL基线取得了持续的改进。这些结果表明，标准的RL轨迹是语言代理训练中WM监督的一个实用来源。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:34

论文页面 - 策略与世界建模联合训练用于语言智能体

来源：https://huggingface.co/papers/2606.02388

作者：

摘要

PaW 是一个联合训练框架，通过利用基于策略的强化学习采样数据，结合策略学习与世界建模，在不增加额外计算开销的情况下提升语言智能体训练效果。

强化学习 (https://huggingface.co/papers?q=Reinforcement%20learning) (RL) 通过教导大型语言模型 (LLM) 智能体哪些行动能获得高奖励来提升其性能，但很少监督这些行动对环境造成的影响。世界建模 (https://huggingface.co/papers?q=World%20modeling) (WM) 可以弥补这一不足，然而现有方法通常需要单独的模拟器、额外的训练阶段或额外的推理时计算。我们观察到，基于策略的 RL (https://huggingface.co/papers?q=on-policy%20RL) 采样数据已经包含了所需信号：每一次转移都将一个行动与其产生的下一个观测结果配对。基于此观察，我们提出了 PaW，一个策略与世界建模 (https://huggingface.co/papers?q=World%20modeling) 联合训练框架，在 RL 过程中为同一策略添加辅助的 WM 监督，且不改变推理范式。为了使辅助 WM 监督更具信息性和稳定性，PaW 引入了三个组件：基于行动熵的 WM 数据选择、噪声容忍的 WM 损失函数，以及奖励自适应的损失平衡 (https://huggingface.co/papers?q=reward-adaptive%20loss%20balancing)。在三个智能体任务基准上的实验表明，该方法在多种模型和 RL 算法上均优于强 RL 基线。这些结果表明，标准的 RL 采样数据是语言智能体训练中实用的 WM 监督来源。

查看 arXiv 页面 (https://arxiv.org/abs/2606.02388)查看 PDF (https://arxiv.org/pdf/2606.02388)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.02388)

在您的智能体中获取此论文：

hf papers read 2606\.02388

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.02388 以从此页面链接。

引用该论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.02388 以从此页面链接。

引用该论文的空间0

没有空间链接此论文

请在空间 README.md 中引用 arxiv.org/abs/2606.02388 以从此页面链接。

包含该论文的合集0

没有合集包含此论文

请将论文添加到合集 (https://huggingface.co/new-collection) 以从此页面链接。

语言代理的策略与世界模型协同训练

论文页面 - 策略与世界建模联合训练用于语言智能体

摘要

引用该论文的模型0

引用该论文的数据集0

引用该论文的空间0

包含该论文的合集0

相似文章

通过世界模型从人类偏好和理由中学习安全智能体行为

UP-NRPA：基于用户画像的嵌套展开策略自适应方法，用于面向目标对话系统中大语言模型的规划

从受训者到训练者：面向多智能体推理的强化学习的LLM设计训练环境

超越下一观测预测：面向顺序决策的智能体自主世界建模

PolicyAlign: 基于直接策略的大型语言模型安全对齐

提交意见反馈