使用语言模型先验从观测中学习POMDP世界模型

Hugging Face Daily Papers 论文

摘要

本文介绍了Pinductor,一种利用语言模型先验从有限的观测-动作数据中高效学习POMDP世界模型的方法,其性能与具有特权隐藏状态访问的方法相当,同时超越了传统的表格方法。

无论是在建筑物中导航、操作机器人还是玩游戏,一个在环境中有效行动的智能体必须首先学习该环境如何运作的内部模型。部分可观测马尔可夫决策过程(POMDP)为此类内部世界模型提供了灵活的建模类别,但仅从观测-动作轨迹中学习它们具有挑战性,通常需要大量的环境交互。我们探究语言模型先验是否可以通过利用先验知识减少昂贵的交互,并提出了Pinductor(POMDP-inductor):一种由LLM从少量观测-动作轨迹中提出候选POMDP模型,并通过迭代优化以最大化基于信念的似然分数的方法。尽管使用的信息严格更少,但Pinductor在性能和样本效率上与假设具有隐藏状态特权访问的基于LLM的POMDP学习方法相匹配,同时在样本效率上显著超越了表格型POMDP基线。进一步的结果表明,性能随LLM能力提升而扩展,并且当环境语义信息被保留时,性能会优雅地下降。这些结果将语言模型先验定位为一种在部分可观测性下进行样本高效世界模型学习的实用工具,并朝着在真实环境中实现通用智能体迈出了一步。代码可在 https://github.com/atomresearch/pinductor 获取。
查看原文
查看缓存全文

缓存时间: 2026/05/18 10:25

论文页——基于语言模型先验从观测中学习POMDP世界模型

来源:https://huggingface.co/papers/2605.13740

摘要

Pinductor利用语言模型先验,从有限的观测-动作数据中高效学习POMDP模型,在匹配具有特权隐状态访问权限的方法的性能的同时,超越了传统表格方法的性能。

无论是导航建筑、操作机器人还是玩游戏,一个能有效在环境中行动的智能体首先必须学习一个环境如何运作的内部模型。部分可观测马尔可夫决策过程(POMDPs)为此类内部世界模型提供了灵活的建模类,但仅从观测-动作轨迹中学习它们具有挑战性,通常需要大量环境交互。我们探究语言模型先验能否通过利用先验知识来减少昂贵的交互,并引入Pinductor(POMDP-inductor):一个大型语言模型(LLM)从少量观测-动作轨迹中提出候选POMDP模型,并迭代优化它们以最大化基于信念的似然分数。尽管使用的信息严格更少,Pinductor在性能和样本效率上匹配了那些假设有权访问隐状态的基于LLM的POMDP学习方法,同时显著超越了表格型POMDP基线的样本效率。进一步的结果表明,性能随LLM能力的提升而扩展,并且当环境中语义信息被屏蔽时,性能会优雅地退化。综合来看,这些结果将语言模型先验定位为在部分可观测条件下进行样本高效世界模型学习的实用工具,并朝着现实环境中的通用智能体迈出了一步。代码可在 https://github.com/atomresearch/pinductor 获取。

查看 arXiv 页面 (https://arxiv.org/abs/2605.13740)查看 PDF (https://arxiv.org/pdf/2605.13740)GitHub3 (https://github.com/atomresearch/pinductor)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.13740)

在您的智能体中获取此论文:

hf papers read 2605.13740

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

没有模型引用本论文

在模型 README.md 中引用 arxiv.org/abs/2605.13740 以从本页链接。

引用本论文的数据集0

没有数据集引用本论文

在数据集 README.md 中引用 arxiv.org/abs/2605.13740 以从本页链接。

引用本论文的空间0

没有空间引用本论文

在空间 README.md 中引用 arxiv.org/abs/2605.13740 以从本页链接。

包含本论文的收藏集0

没有收藏集包含本论文

将本论文添加到收藏集 (https://huggingface.co/new-collection) 以从本页链接。

相似文章

语言代理的策略与世界模型协同训练

Hugging Face Daily Papers

本文介绍PaW,一种协同训练框架,在在线策略强化学习(on-policy RL)轨迹中向策略学习添加辅助世界模型监督,无需额外计算开销即可改进语言代理的训练。

使用概率程序训练大型语言模型的归纳推理

arXiv cs.CL

本文介绍了基于程序的后验训练(PPT),一种利用LLM生成的概率程序来创建分布目标,以微调归纳推理的方法,从而提高了在保留任务和人类对齐基准上的估计准确性和校准能力。