Connect the Dots:通过强化学习训练LLM以具备跨域泛化能力的长期生命周期智能体
摘要
本文介绍了Connect the Dots(CoD),这是一个通过强化学习训练LLM的框架,用于培养长期生命周期智能体的元能力,实现持续学习和跨域泛化。
查看缓存全文
缓存时间: 2026/06/23 05:41
论文页面 - 连接点:通过强化学习训练LLM实现跨域泛化的长生命周期智能体
来源:https://huggingface.co/papers/2606.20002
摘要
大型语言模型可以通过强化学习训练,发展出一种元能力,使其能够在动态环境中跨长序列任务进行持续学习和适应。
本文提出了一个通用框架,用于训练大型语言模型(LLMs)以“连接点“(Connect the Dots, CoD)——这是长生命周期智能体所需的一种元能力:当基于LLM的AI智能体部署到环境中时,它会解决一长串任务,同时持续探索环境、从自身经验中学习、并迭代地自我更新关于环境的上下文,从而在更新后的上下文条件下,在未来任务上逐步实现更优的性能。CoD框架的主要组成部分包括:(1)用于端到端强化学习(RL)的算法设计和基础设施,其中包含交替进行“解决任务“和“更新上下文“情节的长展开序列;(2)用于在训练中激励和引发LLM中目标元能力、以及在评估中忠实衡量进展的任务和环境。我们展示了CoD框架的概念验证实现,包括一种具有细粒度信用分配的GRPO风格RL算法,以及针对目标元能力(而非特定领域的LLM能力或标准的逐任务RL)量身定制的任务和环境。实证结果验证了在CoD设置下进行端到端RL训练的有效性,并展示了所引发的元能力的分布外泛化潜力——在训练领域内、跨不同领域、以及从CoD到Ralph-loop设置。我们对CoD的探索连接了多项先前工作,并为推进LLM和AI智能体开辟了新的机遇。为促进进一步的研究和应用,我们在 https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod 发布了我们的实现。
查看arXiv页面 (https://arxiv.org/abs/2606.20002)
查看PDF (https://arxiv.org/pdf/2606.20002)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.20002)
让你的智能体获取这篇论文:
hf papers read 2606.20002
没有最新的CLI? curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
无模型链接至此论文
在模型README.md中引用 arxiv.org/abs/2606.20002 即可从此页面链接。
引用此论文的数据集0
无数据集链接至此论文
在数据集README.md中引用 arxiv.org/abs/2606.20002 即可从此页面链接。
引用此论文的Space0
无Space链接至此论文
在Space README.md中引用 arxiv.org/abs/2606.20002 即可从此页面链接。
包含此论文的收藏集0
无收藏集包含此论文
将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 即可从此页面链接。
相似文章
从受训者到训练者:LLM为多智能体推理强化学习设计的训练环境
本文介绍了LLM-as-Environment-Engineer框架,该框架使LLM能够为多智能体推理任务中的强化学习设计自己的训练环境,实现自我改进训练,其性能超越更大的专有模型。
面向长周期任务的智能体兼容上下文管理
介绍AdaCoM,一种基于外部LLM的上下文管理器,适用于冻结的智能体。通过保留任务约束和修剪过时内容,利用强化学习提升长周期任务性能,并在网络搜索和深度研究基准上进行了实验。
重新思考自进化大语言模型智能体的持续经验内化
本文研究了大语言模型智能体在多轮迭代经验内化过程中出现能力渐进式崩溃的原因,并提出了一套从经验粒度、注入模式和训练机制三个维度出发的鲁棒解决方案。主要发现包括:原则级经验、逐步注入方式以及离策略上下文蒸馏能够带来更稳定、更可持续的持续学习效果。
CoEvolve:通过智能体-数据互进化训练LLM智能体
CoEvolve提出了一个智能体-数据互进化框架,通过闭环、交互驱动的学习来训练LLM智能体,同时适配智能体和其训练数据分布。该方法从轨迹回滚中提取反馈信号以指导基于LLM的任务合成,在AppWorld和BFCL基准上的多个Qwen模型中展示了显著的改进(绝对收益15-19%)。
SkillLens:面向成本高效型大模型智能体的自适应多粒度技能复用
本文提出了 SkillLens,这是一种用于大模型智能体自适应多粒度技能复用的分层框架,在基准任务中展示了更高的准确性和成本效益。