超越当前观察:在可控非马尔可夫游戏中评估多模态大语言模型
摘要
本文介绍了RNG-Bench,一个基准测试套件,用于评估多模态基础模型在多步交互中重建过去观察并利用它们进行决策的能力。该套件包含两个游戏(Matching Pairs和3D Maze),具有可控难度参数和一个记忆差距指标,用于区分遗忘与糟糕的决策。
查看缓存全文
缓存时间: 2026/06/18 03:56
论文页面 - 超越当前观察:在可控非马尔可夫游戏中评估多模态大语言模型
来源:https://huggingface.co/papers/2606.19338
摘要
本文介绍了一个名为 RNG-Bench 的新基准测试套件,用于评估多模态基础模型在多步交互中重建过去观测并据此进行决策的能力。该套件包含两个游戏,具有可控的难度参数,并引入了一个记忆差距指标,以区分遗忘与决策失误。
将多模态基础模型部署为闭环策略时,越来越需要基于不再可见的观测来调整行动。然而,现有基准要么暴露完整状态,混淆隐藏状态重建与其他智能体技能,要么仅在回合结束后测试回忆能力。我们提出了 RNG-Bench(可重建非马尔可夫游戏),这是一个旨在孤立评估基础模型在多步交互中重建过去观测并据此行动的能力的基准测试套件。RNG-Bench 包含两个互补的游戏:配对游戏(Matching Pairs),要求记忆在特定位置短暂揭示的卡片身份;以及 3D 迷宫(3D Maze),需要将自我中心视角整合为空间地图。两个游戏在统一框架下进行评估,具有三个可控难度维度:网格大小、视觉模式和观测模态。该基准进一步引入了一种对决协议来控制实例级方差,以及一个记忆差距(Memory Gap)指标,用于区分遗忘与行动选择不佳。最难的配置要求每回合的上下文约为 128K 个 token 和 350 张图像输入,并且仍远未达到前沿多模态大语言模型(MLLM)的饱和状态。记忆差距分析表明,大部分剩余错误源于遗忘较早的观测,而非次优的决策。最后,在最优策略 rollout 和过滤后的模型演示上微调 Qwen3.5-9B,可提升其在 RNG-Bench 上的性能,并迁移至现有基准,且不降低通用多模态能力。
查看 arXiv 页面 (https://arxiv.org/abs/2606.19338)
查看 PDF (https://arxiv.org/pdf/2606.19338)
项目页面 (https://internlm.github.io/RNGBench/)
GitHub1 (https://github.com/InternLM/RNGBench)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.19338)
在你的智能体中获取这篇论文:
hf papers read 2606.19338
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型0
没有模型引用本论文
在模型 README.md 中引用 arxiv.org/abs/2606.19338 以将其链接到此页面。
引用本论文的数据集0
没有数据集引用本论文
在数据集 README.md 中引用 arxiv.org/abs/2606.19338 以将其链接到此页面。
引用本论文的 Spaces0
没有 Space 引用本论文
在 Space README.md 中引用 arxiv.org/abs/2606.19338 以将其链接到此页面。
包含本论文的收藏集0
没有收藏集包含本论文
将本论文添加到一个收藏集 (https://huggingface.co/new-collection) 以将其链接到此页面。
相似文章
大型语言模型中的交互推理评估:基于可执行游戏的分层基准
本文介绍了一个用于推理评估的多轮交互框架,其中大型语言模型需要查询隐藏环境并整合部分观察结果。该框架实例化为一个包含474个可执行游戏、跨五个难度级别的基准,展示了区分能力并揭示了推理差异。
在复杂隐藏角色游戏中评估大型语言模型
本文介绍了一个开源框架,用于评估大型语言模型在隐藏角色游戏《秘密希特勒》中的推理、说服和欺骗能力。研究发现,当前模型在持续的多轮操纵上表现不佳,而基于规则的智能体优于它们。
GENSTRAT:迈向大型语言模型战略推理科学
本文介绍了GENSTRAT,一个利用程序生成的战略环境来评估LLMs在多维度上的战略推理能力的基准,解决了固定游戏套件的局限性。
MCBench: 面向全模态大语言模型的多语境安全评估基准
MCBench是一个新基准,用于评估全模态大语言模型在视觉、音频和文本模态下的安全性。它包含1196个场景,并发现当前模型难以进行跨模态安全推理。
MemLens:大规模视觉-语言模型中多模态长期记忆的基准测试
MemLens是一个新的基准测试,通过多轮对话评估大规模视觉-语言模型的记忆能力。它比较了长上下文和记忆增强方法,揭示了二者的局限性,并推动了混合架构的发展。