使用语言模型先验从观测中学习POMDP世界模型
摘要
本文介绍了Pinductor,一种利用语言模型先验从有限的观测-动作数据中高效学习POMDP世界模型的方法,其性能与具有特权隐藏状态访问的方法相当,同时超越了传统的表格方法。
查看缓存全文
缓存时间: 2026/05/18 10:25
论文页——基于语言模型先验从观测中学习POMDP世界模型
来源:https://huggingface.co/papers/2605.13740
摘要
Pinductor利用语言模型先验,从有限的观测-动作数据中高效学习POMDP模型,在匹配具有特权隐状态访问权限的方法的性能的同时,超越了传统表格方法的性能。
无论是导航建筑、操作机器人还是玩游戏,一个能有效在环境中行动的智能体首先必须学习一个环境如何运作的内部模型。部分可观测马尔可夫决策过程(POMDPs)为此类内部世界模型提供了灵活的建模类,但仅从观测-动作轨迹中学习它们具有挑战性,通常需要大量环境交互。我们探究语言模型先验能否通过利用先验知识来减少昂贵的交互,并引入Pinductor(POMDP-inductor):一个大型语言模型(LLM)从少量观测-动作轨迹中提出候选POMDP模型,并迭代优化它们以最大化基于信念的似然分数。尽管使用的信息严格更少,Pinductor在性能和样本效率上匹配了那些假设有权访问隐状态的基于LLM的POMDP学习方法,同时显著超越了表格型POMDP基线的样本效率。进一步的结果表明,性能随LLM能力的提升而扩展,并且当环境中语义信息被屏蔽时,性能会优雅地退化。综合来看,这些结果将语言模型先验定位为在部分可观测条件下进行样本高效世界模型学习的实用工具,并朝着现实环境中的通用智能体迈出了一步。代码可在 https://github.com/atomresearch/pinductor 获取。
查看 arXiv 页面 (https://arxiv.org/abs/2605.13740)查看 PDF (https://arxiv.org/pdf/2605.13740)GitHub3 (https://github.com/atomresearch/pinductor)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.13740)
在您的智能体中获取此论文:
hf papers read 2605.13740
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型0
没有模型引用本论文
在模型 README.md 中引用 arxiv.org/abs/2605.13740 以从本页链接。
引用本论文的数据集0
没有数据集引用本论文
在数据集 README.md 中引用 arxiv.org/abs/2605.13740 以从本页链接。
引用本论文的空间0
没有空间引用本论文
在空间 README.md 中引用 arxiv.org/abs/2605.13740 以从本页链接。
包含本论文的收藏集0
没有收藏集包含本论文
将本论文添加到收藏集 (https://huggingface.co/new-collection) 以从本页链接。
相似文章
世界模型与语言模型相遇:论具体推理与抽象推理的互补性
本文提出特权未来在策略自蒸馏(PF-OPSD)方法,用于受控具体推理,结合世界模型的视觉模拟与语言模型的抽象推理,在两个新基准上提升预测准确性和鲁棒性。
World Pilot: 使用世界动作先验引导视觉-语言-动作模型
World Pilot 通过融入来自世界动作模型的动态场景演变和轨迹先验来增强视觉-语言-动作模型,在操作任务上实现了最先进的零样本性能。
语言代理的策略与世界模型协同训练
本文介绍PaW,一种协同训练框架,在在线策略强化学习(on-policy RL)轨迹中向策略学习添加辅助世界模型监督,无需额外计算开销即可改进语言代理的训练。
你的语言模型就是其自身的评论者:利用演员内部状态进行价值估计的强化学习
本文介绍了 POISE,一种通过利用模型自身内部状态来估计基线,从而在大型推理模型中实现稳定策略优化的方法,与 PPO 和 GRPO 相比,该方法降低了计算开销。
使用概率程序训练大型语言模型的归纳推理
本文介绍了基于程序的后验训练(PPT),一种利用LLM生成的概率程序来创建分布目标,以微调归纳推理的方法,从而提高了在保留任务和人类对齐基准上的估计准确性和校准能力。