policy-sharing

标签

Cards List
#policy-sharing

多智能体RL何时能提升LLM工作流?工作流、规模与策略共享的权衡

arXiv cs.AI · 2026-05-26 缓存

本文研究了端到端强化学习训练何时能改善多智能体LLM工作流,比较了不同工作流、任务和模型规模下的共享策略与隔离策略训练,揭示了条件性权衡。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈