LatentGym: 面向可控隐变量结构的跨任务经验学习测试平台

arXiv cs.LG 论文

摘要

介绍了LatentGym,这是一个可控测试平台,用于研究LLM代理的跨任务经验学习,能够测量探索与利用,并揭示前沿模型为何无法在相关任务间适应。

arXiv:2606.15306v1 公告类型:新 摘要:我们设想了持续学习的自主系统,这些系统随时间推移变得越来越有用:当遇到一系列相关任务时,它们应推断这些任务间共享的隐藏结构,并利用它改进未来的决策。这种跨任务经验学习能力在个性化与交互式辅助等领域至关重要,但现有的训练/评估框架不提供共享的、可控的隐变量结构,也无法测量代理是否以及为何改进。我们提出了LatentGym:一个可控套件,其中每个环境都围绕一个控制任务间结构的地面真值隐变量组织。我们的构造产生了能够将探索(代理的行动是否收集关于隐变量的信息)与利用(代理是否利用已收集的信息)分离的指标。我们通过实证研究展示我们的套件,回答了三个问题:前沿模型如何以及为何无法在相关任务间适应;在相关任务序列上进行后训练是否能改善一般的跨任务适应以及这些收益从何而来;以及设计选择(如任务间反馈)如何塑造训练动态和泛化。总之,这些结果为研究LLM代理如何跨任务从经验中学习,以及设计在顺序、个性化和交互式场景中更可靠适应的代理奠定了可控基础。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:41

# LatentGym:一种具有可控潜在结构的跨任务体验学习测试平台
来源:https://arxiv.org/abs/2606.15306
查看 PDF (https://arxiv.org/pdf/2606.15306)

> 摘要:我们设想持续学习的智能体系统能够随时间推移变得更加有用:当它们遇到一系列相关任务时,应能推断出这些任务间共享的隐藏结构,并利用它来改进未来的决策。这种跨任务体验学习能力在个性化和交互式辅助等领域至关重要,但现有的训练/评估框架并未提供共享的、可控的潜在结构,也无法衡量智能体是否或为何有所改进。我们引入了 LatentGym:一个可控的套件,其中每个环境都围绕一个控制任务间结构的真实潜在变量进行组织。我们的构建产生了能够分离探索(智能体的行为是否收集关于潜在变量的信息)与利用(智能体是否使用已收集的信息)的指标。我们通过实证研究展示了该套件,以解决三个问题:前沿模型如何以及为何无法跨相关任务进行适应;在相关任务序列上的后训练是否能改善通用的跨任务适应,以及这些改进从何而来;以及诸如任务间反馈等设计选择如何塑造训练动态和泛化能力。综合这些结果,我们为研究 LLM 智能体如何从跨任务体验中学习,以及设计在序列化、个性化和交互式场景中更可靠适应的智能体,建立了一个受控的基础。

## 提交历史

来自:Daksh Mittal \[查看电子邮件 (https://arxiv.org/show-email/b2c9c6f0/2606.15306)\] **\[v1\]**2026年6月13日星期六 13:51:22 UTC \(700 KB\)

相似文章

MemGym:面向LLM智能体的长时记忆环境

arXiv cs.CL

MemGym是一个基准测试,用于评估LLM智能体在长时任务中的记忆形成,它统一了现有的智能体gym和合成流水线,并采用记忆隔离得分。它涵盖工具使用对话、多轮搜索、编码和计算机使用,并包含一个轻量级奖励模型(MemRM)以实现高效评估。

ElasticMem:作为LLM智能体可学习资源的潜在记忆

arXiv cs.CL

ElasticMem 为 LLM 智能体引入了一种可学习的潜在记忆机制,该机制能够自适应地为检索到的记忆分配可变预算,从而在减少 token 成本的同时,提升内存密集型问答和具身智能体任务的性能。

SEAGym: 自进化LLM代理的评估环境

arXiv cs.AI

SEAGym是一个新的评估环境,用于自进化LLM代理,它衡量代理框架在训练、验证、测试、重放和成本记录上的更新,提供关于进化过程的互补信号。