Connect the Dots:通过强化学习训练LLM以具备跨域泛化能力的长期生命周期智能体

Hugging Face Daily Papers 论文

摘要

本文介绍了Connect the Dots(CoD),这是一个通过强化学习训练LLM的框架,用于培养长期生命周期智能体的元能力,实现持续学习和跨域泛化。

本文提出一个通用框架,用于训练大型语言模型(LLM)具备"Connect the Dots"(CoD)这一元能力,这是长期生命周期智能体所需的能力:当基于LLM的AI智能体部署到环境中时,它解决一长串任务,同时持续探索环境、从自身经验中学习,并迭代地自我更新关于环境的上下文,从而在更新上下文的基础上,在未来任务中逐步取得更好的性能。CoD框架的主要组成部分包括:(1)用于端到端强化学习(RL)的算法设计和基础设施,具有长展开序列,交替执行解决任务和更新上下文的回合;(2)用于在训练中激励和激发LLM目标元能力,以及在评估中忠实衡量进展的任务和环境。我们展示了CoD框架的概念验证实现,包括一个具有细粒度信用分配的GRPO风格强化学习算法,以及针对目标元能力(而非特定领域的LLM能力或标准的逐任务RL)定制的任务和环境。实证结果验证了CoD设置中端到端RL训练的有效性,并展示了所激发的元能力在分布外泛化方面的潜力——包括训练域内、跨不同域,以及从CoD到Ralph-loop设置。我们对CoD的研究连接了多个先前的工作线索,并为推进LLM和AI智能体开辟了新的机会。为促进进一步的研究和应用,我们在 https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod 发布了我们的实现。
查看原文
查看缓存全文

缓存时间: 2026/06/23 05:41

论文页面 - 连接点:通过强化学习训练LLM实现跨域泛化的长生命周期智能体

来源:https://huggingface.co/papers/2606.20002

摘要

大型语言模型可以通过强化学习训练,发展出一种元能力,使其能够在动态环境中跨长序列任务进行持续学习和适应。

本文提出了一个通用框架,用于训练大型语言模型(LLMs)以“连接点“(Connect the Dots, CoD)——这是长生命周期智能体所需的一种元能力:当基于LLM的AI智能体部署到环境中时,它会解决一长串任务,同时持续探索环境、从自身经验中学习、并迭代地自我更新关于环境的上下文,从而在更新后的上下文条件下,在未来任务上逐步实现更优的性能。CoD框架的主要组成部分包括:(1)用于端到端强化学习(RL)的算法设计和基础设施,其中包含交替进行“解决任务“和“更新上下文“情节的长展开序列;(2)用于在训练中激励和引发LLM中目标元能力、以及在评估中忠实衡量进展的任务和环境。我们展示了CoD框架的概念验证实现,包括一种具有细粒度信用分配的GRPO风格RL算法,以及针对目标元能力(而非特定领域的LLM能力或标准的逐任务RL)量身定制的任务和环境。实证结果验证了在CoD设置下进行端到端RL训练的有效性,并展示了所引发的元能力的分布外泛化潜力——在训练领域内、跨不同领域、以及从CoD到Ralph-loop设置。我们对CoD的探索连接了多项先前工作,并为推进LLM和AI智能体开辟了新的机遇。为促进进一步的研究和应用,我们在 https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod 发布了我们的实现。

查看arXiv页面 (https://arxiv.org/abs/2606.20002)
查看PDF (https://arxiv.org/pdf/2606.20002)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.20002)

让你的智能体获取这篇论文:

hf papers read 2606.20002

没有最新的CLI? curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接至此论文

在模型README.md中引用 arxiv.org/abs/2606.20002 即可从此页面链接。

引用此论文的数据集0

无数据集链接至此论文

在数据集README.md中引用 arxiv.org/abs/2606.20002 即可从此页面链接。

引用此论文的Space0

无Space链接至此论文

在Space README.md中引用 arxiv.org/abs/2606.20002 即可从此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 即可从此页面链接。

相似文章

面向长周期任务的智能体兼容上下文管理

arXiv cs.AI

介绍AdaCoM,一种基于外部LLM的上下文管理器,适用于冻结的智能体。通过保留任务约束和修剪过时内容,利用强化学习提升长周期任务性能,并在网络搜索和深度研究基准上进行了实验。

重新思考自进化大语言模型智能体的持续经验内化

arXiv cs.CL

本文研究了大语言模型智能体在多轮迭代经验内化过程中出现能力渐进式崩溃的原因,并提出了一套从经验粒度、注入模式和训练机制三个维度出发的鲁棒解决方案。主要发现包括:原则级经验、逐步注入方式以及离策略上下文蒸馏能够带来更稳定、更可持续的持续学习效果。

CoEvolve:通过智能体-数据互进化训练LLM智能体

arXiv cs.CL

CoEvolve提出了一个智能体-数据互进化框架,通过闭环、交互驱动的学习来训练LLM智能体,同时适配智能体和其训练数据分布。该方法从轨迹回滚中提取反馈信号以指导基于LLM的任务合成,在AppWorld和BFCL基准上的多个Qwen模型中展示了显著的改进(绝对收益15-19%)。