Connect the Dots：通过强化学习训练LLM以具备跨域泛化能力的长期生命周期智能体

Hugging Face Daily Papers 2026/06/18 00:00 论文

reinforcement-learning llm agents meta-learning generalization long-context cross-domain

摘要

本文介绍了Connect the Dots（CoD），这是一个通过强化学习训练LLM的框架，用于培养长期生命周期智能体的元能力，实现持续学习和跨域泛化。

本文提出一个通用框架，用于训练大型语言模型（LLM）具备"Connect the Dots"（CoD）这一元能力，这是长期生命周期智能体所需的能力：当基于LLM的AI智能体部署到环境中时，它解决一长串任务，同时持续探索环境、从自身经验中学习，并迭代地自我更新关于环境的上下文，从而在更新上下文的基础上，在未来任务中逐步取得更好的性能。CoD框架的主要组成部分包括：（1）用于端到端强化学习（RL）的算法设计和基础设施，具有长展开序列，交替执行解决任务和更新上下文的回合；（2）用于在训练中激励和激发LLM目标元能力，以及在评估中忠实衡量进展的任务和环境。我们展示了CoD框架的概念验证实现，包括一个具有细粒度信用分配的GRPO风格强化学习算法，以及针对目标元能力（而非特定领域的LLM能力或标准的逐任务RL）定制的任务和环境。实证结果验证了CoD设置中端到端RL训练的有效性，并展示了所激发的元能力在分布外泛化方面的潜力——包括训练域内、跨不同域，以及从CoD到Ralph-loop设置。我们对CoD的研究连接了多个先前的工作线索，并为推进LLM和AI智能体开辟了新的机会。为促进进一步的研究和应用，我们在 https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod 发布了我们的实现。

查看原文

查看缓存全文

缓存时间: 2026/06/23 05:41

论文页面 - 连接点：通过强化学习训练LLM实现跨域泛化的长生命周期智能体

来源：https://huggingface.co/papers/2606.20002

摘要

大型语言模型可以通过强化学习训练，发展出一种元能力，使其能够在动态环境中跨长序列任务进行持续学习和适应。

本文提出了一个通用框架，用于训练大型语言模型（LLMs）以“连接点“（Connect the Dots, CoD）——这是长生命周期智能体所需的一种元能力：当基于LLM的AI智能体部署到环境中时，它会解决一长串任务，同时持续探索环境、从自身经验中学习、并迭代地自我更新关于环境的上下文，从而在更新后的上下文条件下，在未来任务上逐步实现更优的性能。CoD框架的主要组成部分包括：（1）用于端到端强化学习（RL）的算法设计和基础设施，其中包含交替进行“解决任务“和“更新上下文“情节的长展开序列；（2）用于在训练中激励和引发LLM中目标元能力、以及在评估中忠实衡量进展的任务和环境。我们展示了CoD框架的概念验证实现，包括一种具有细粒度信用分配的GRPO风格RL算法，以及针对目标元能力（而非特定领域的LLM能力或标准的逐任务RL）量身定制的任务和环境。实证结果验证了在CoD设置下进行端到端RL训练的有效性，并展示了所引发的元能力的分布外泛化潜力——在训练领域内、跨不同领域、以及从CoD到Ralph-loop设置。我们对CoD的探索连接了多项先前工作，并为推进LLM和AI智能体开辟了新的机遇。为促进进一步的研究和应用，我们在 https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod 发布了我们的实现。

查看arXiv页面 (https://arxiv.org/abs/2606.20002)
查看PDF (https://arxiv.org/pdf/2606.20002)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.20002)

让你的智能体获取这篇论文：

hf papers read 2606.20002

没有最新的CLI？ curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接至此论文

在模型README.md中引用 arxiv.org/abs/2606.20002 即可从此页面链接。

引用此论文的数据集0

无数据集链接至此论文

在数据集README.md中引用 arxiv.org/abs/2606.20002 即可从此页面链接。

引用此论文的Space0

无Space链接至此论文

在Space README.md中引用 arxiv.org/abs/2606.20002 即可从此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 即可从此页面链接。

Connect the Dots：通过强化学习训练LLM以具备跨域泛化能力的长期生命周期智能体

论文页面 - 连接点：通过强化学习训练LLM实现跨域泛化的长生命周期智能体

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏集0

相似文章

从受训者到训练者：LLM为多智能体推理强化学习设计的训练环境

面向长周期任务的智能体兼容上下文管理

重新思考自进化大语言模型智能体的持续经验内化

CoEvolve：通过智能体-数据互进化训练LLM智能体

SkillLens：面向成本高效型大模型智能体的自适应多粒度技能复用

提交意见反馈