超越当前观察:在可控非马尔可夫游戏中评估多模态大语言模型

Hugging Face Daily Papers 论文

摘要

本文介绍了RNG-Bench,一个基准测试套件,用于评估多模态基础模型在多步交互中重建过去观察并利用它们进行决策的能力。该套件包含两个游戏(Matching Pairs和3D Maze),具有可控难度参数和一个记忆差距指标,用于区分遗忘与糟糕的决策。

将多模态基础模型部署为闭环策略,越来越需要基于不再可见的观察来调整动作。然而,现有基准要么暴露完整状态,将隐藏状态重建与其他智能体技能混为一谈,要么仅在回合结束后测试记忆。我们推出了RNG-Bench(Reconstructive Non-Markov Games的缩写),这是一个基准测试套件,旨在隔离基础模型在多次交互过程中重建过去观察并据此行动的能力。RNG-Bench包含两个互补的游戏:Matching Pairs(配对游戏),玩家需记住特定位置短暂展示的牌面身份;以及3D Maze(三维迷宫),玩家需将自我中心视角整合到空间地图中。两个游戏都在统一的测试框架下进行评估,包含三个可控难度维度:网格大小、视觉模式和观察模态。该基准进一步引入了头对头对决协议以控制实例级方差,以及一个Memory Gap指标,将遗忘与糟糕的动作选择区分开来。最难的配置每回合需要约128K个token的上下文和350张图像输入,前沿MLLM尚未接近饱和。Memory Gap分析表明,大多数残余错误源于对早期观察的遗忘,而非次优决策。最后,在最优策略轨迹和过滤后的模型演示上微调Qwen3.5-9B,提升了在RNG-Bench上的性能,并迁移到现有基准,同时不损害通用多模态能力。
查看原文
查看缓存全文

缓存时间: 2026/06/18 03:56

论文页面 - 超越当前观察:在可控非马尔可夫游戏中评估多模态大语言模型

来源:https://huggingface.co/papers/2606.19338

摘要

本文介绍了一个名为 RNG-Bench 的新基准测试套件,用于评估多模态基础模型在多步交互中重建过去观测并据此进行决策的能力。该套件包含两个游戏,具有可控的难度参数,并引入了一个记忆差距指标,以区分遗忘与决策失误。

将多模态基础模型部署为闭环策略时,越来越需要基于不再可见的观测来调整行动。然而,现有基准要么暴露完整状态,混淆隐藏状态重建与其他智能体技能,要么仅在回合结束后测试回忆能力。我们提出了 RNG-Bench(可重建非马尔可夫游戏),这是一个旨在孤立评估基础模型在多步交互中重建过去观测并据此行动的能力的基准测试套件。RNG-Bench 包含两个互补的游戏:配对游戏(Matching Pairs),要求记忆在特定位置短暂揭示的卡片身份;以及 3D 迷宫(3D Maze),需要将自我中心视角整合为空间地图。两个游戏在统一框架下进行评估,具有三个可控难度维度:网格大小、视觉模式和观测模态。该基准进一步引入了一种对决协议来控制实例级方差,以及一个记忆差距(Memory Gap)指标,用于区分遗忘与行动选择不佳。最难的配置要求每回合的上下文约为 128K 个 token 和 350 张图像输入,并且仍远未达到前沿多模态大语言模型(MLLM)的饱和状态。记忆差距分析表明,大部分剩余错误源于遗忘较早的观测,而非次优的决策。最后,在最优策略 rollout 和过滤后的模型演示上微调 Qwen3.5-9B,可提升其在 RNG-Bench 上的性能,并迁移至现有基准,且不降低通用多模态能力。

查看 arXiv 页面 (https://arxiv.org/abs/2606.19338)
查看 PDF (https://arxiv.org/pdf/2606.19338)
项目页面 (https://internlm.github.io/RNGBench/)
GitHub1 (https://github.com/InternLM/RNGBench)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.19338)

在你的智能体中获取这篇论文:

hf papers read 2606.19338

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

没有模型引用本论文

在模型 README.md 中引用 arxiv.org/abs/2606.19338 以将其链接到此页面。

引用本论文的数据集0

没有数据集引用本论文

在数据集 README.md 中引用 arxiv.org/abs/2606.19338 以将其链接到此页面。

引用本论文的 Spaces0

没有 Space 引用本论文

在 Space README.md 中引用 arxiv.org/abs/2606.19338 以将其链接到此页面。

包含本论文的收藏集0

没有收藏集包含本论文

将本论文添加到一个收藏集 (https://huggingface.co/new-collection) 以将其链接到此页面。

相似文章

在复杂隐藏角色游戏中评估大型语言模型

arXiv cs.CL

本文介绍了一个开源框架,用于评估大型语言模型在隐藏角色游戏《秘密希特勒》中的推理、说服和欺骗能力。研究发现,当前模型在持续的多轮操纵上表现不佳,而基于规则的智能体优于它们。